MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Nature Biotechnology | 基因组所张艳聪团队联合哈佛大学开发新一代AI工具FUGAsseM,破解微生物群落功能“暗物质”

2025-10-15 05:43:00

【字体:

  

在我们的身体里,生活着数以万亿计的微生物。尽管我们与它们“朝夕相处”,却对其所知甚少,迄今为止,超过70%的人体微生物基因功能仍是未解之谜,这类功能未知的微生物基因产物被统称为微生物组功能“暗物质”。


北京时间10月15日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)张艳聪团队联合哈佛大学Curtis Huttenhower教授团队在《自然·生物技术(Nature Biotechnology)》发表了题为“Predicting functions of uncharacterized gene products from microbial communities”的研究论文。该研究开发了一种蛋白质功能预测AI模型 FUGAsseM,为系统性解析微生物功能“暗物质”提供了全新方法。


方法创新:跨组学整合的智能预测AI模型 FUGAsseM

研究团队创新性地整合了宏转录组共表达信号、宏基因组组装邻近关系、序列同源性以及蛋白结构域互作等多维群落数据信息,构建了双层机器学习模型,实现了“循证推理”(guilt-by-association)式功能预测,有效突破了传统方法过度依赖同源序列的局限。借助这一策略,FUGAsseM在跨物种与跨群落的应用中展现出高度稳健性,尤其在处理新型或低同源性序列时表现突出。


图1 | FUGAsseM功能预测工具(https://github.com/biobakery/fugassem)


性能评估:精准与高效双提升

FUGAsseM在交叉验证中展现出卓越表现:仅基于宏转录组的模型已可达到平均AUROC 0.71,而整合多类证据后,AUROC高达0.95,媲美甚至优于当前单菌方法如DeepGOPlus与NetGO2.0等。与单菌株实验对照相比,它在全新、未知功能蛋白的预测中展现出更强适应性。这表明FUGAsseM不仅是概念上的方法创新,更是一款具备直接应用价值的高通量功能预测方法。


更重要的是,在时间留存(temporal hold-out)验证中,FUGAsseM依然保持高精度。在完全独立的实验验证数据上,FUGAsseM依然达到AUROC 0.80,显著优于依赖同源性的方法。表明其预测结果不仅稳健,而且具备前瞻性,能够捕获尚未被实验验证的功能信号。


图2 | FUGAsseM高效预测微生物群落蛋白质功能


大规模应用:跨物种与跨生态系统普适性

研究团队利用FUGAsseM对“整合人类微生物组计划”(HMP2/iHMP)数据进行分析,成功为超过44万个蛋白家族赋予高置信度功能注释,其中82.3%此前未被表征,且包含3万余个完全新型蛋白家族,这一成果显著拓展了人类肠道微生物的功能图谱。该工具不仅提升了对常见菌(如大肠杆菌、拟杆菌)的泛基因组注释覆盖率,也显著扩展了对难培养或研究不足微生物的功能解析,功能注释覆盖率平均提升近 5倍,展示了跨物种、跨生态系统的普适性与可拓展性。


图3 | FUGAsseM助力大幅拓展肠道微生物蛋白功能图谱


关键发现:揭示肠道功能“暗物质”的核心密码

FUGAsseM揭示了大量此前未知的代谢与环境互作功能,包括铁离子稳态、氨代谢、毒素处理及宿主相关的跨膜转运功能等。特别是在具有益生功能的Faecalibacterium prausnitzii中,FUGAsseM预测到新型噬菌体防御与CRISPR-Cas系统基因,揭示了其在疾病健康中的作用潜力。这些发现不仅加深了我们对肠道菌群与宿主互作的理解,还提示了潜在的健康干预靶点。


图4 | F. prausnitzii新型新型噬菌体防御与CRISPR-Cas系统高效预测


科研意义与展望

FUGAsseM在群落尺度实现了对微生物基因产物的系统化功能预测,为破解微生物群落功能“暗物质”提供了新范式。该工具在精度、覆盖度和前瞻性上均表现优异,能够跨越物种与生态系统限制,捕获传统方法难以识别的新功能信号。成果不仅为深入理解肠道菌群与宿主在免疫、代谢和疾病中的复杂互作提供了关键资源,也为揭示环境微生物在养分循环与生态平衡中的作用奠定了方法学基础。作为一个开源、可扩展的AI工具,FUGAsseM有望推动疾病研究、益生菌开发、环境功能预测和农业生态调控等多领域应用。


中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)为本论文第一完成单位。基因组所张艳聪研究员、哈佛大学Curtis Huttenhower教授和Eric A. Franzosa博士为本文的通讯作者,张艳聪研究员是唯一第一作者。哈佛大学Wendy S. Garrett教授、武田公司(Takeda)Andy Krueger与Bin Li对本研究提供了重要指导,哈佛大学Amrisha Bhosle博士、Sena Bae博士等参与了相关研究工作。该研究得到了国家自然科学基金、中国农业科学院科技创新工程、美国国立卫生研究院基金等项目的支持。


张艳聪课题组简介

张艳聪,研究员,博士生导师,国家海外高层次青年人才。北京师范大学博士、哈佛大学博士后、麻省理工学院-哈佛大学博德研究所研究科学家(Research Scientist)。长期从事微生物组数据挖掘与功能解析研究,近年来在Nature(独立一作)、Nature Biotechnology (独立一作兼共同通讯)等国际权威期刊发表SCI论文20余篇,总影响因子超过450,论文总被引6900余次。担任iMeta及aBIOTECH青年编委,参与评审Cell、Nature、Nature Reviews Methods Primers等多篇同行学术论文,获得哈佛医学院华人科学家杰出研究奖。

课题组诚邀对AI、多组学大数据挖掘、微生物组学、肠道菌群等领域感兴趣的青年学者加入。详细介绍请参考:https://www.agis.org.cn/rczp/bshzp/3e47020f789a4394976a2fbe7a094100.htm

TOP TOP