MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Cell Research|左二伟团队开发蛋白功能预测AI模型AlphaCD,精准挖掘高效基因编辑工具

2025-08-25 10:43:00

【字体:

  

胞嘧啶碱基编辑器(CBE)是一类能够将DNA中的C•G碱基对精准转换为T•A的基因编辑工具,广泛应用于疾病治疗和动植物育种研究。然而,与腺嘌呤碱基编辑器(ABE)相比,当前的CBE普遍面临效率偏低和脱靶率较高的难题,这些问题严重制约了其在临床医学和农业领域的推广应用。


近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)左二伟团队在《细胞研究 (Cell Research) 》上在线发表了题为“AlphaCD: a machine learning model capable of highly accurate characterization for 21,335 cytidine deaminases”的研究论文。



该研究构建了迄今为止规模最大的胞嘧啶脱氨酶实验验证数据集,并基于此开发了多模态机器学习模型AlphaCD。该模型不仅能够高效预测超过2万种胞嘧啶脱氨酶的酶活特征,并能据此设计出新型高性能碱基编辑工具。该研究为蛋白质功能高通量鉴定和基因编辑工具开发提供了全新研究范式。


从大规模实验验证到AI预测模型

研究首先从UniProt数据库中筛选出了1100个属于APOBEC家族的胞嘧啶脱氨酶,这一范围涵盖了AID以及APOBEC1/2/3A–3H等11个亚家族。团队将这些胞嘧啶脱氨酶与nCas9融合,在HEK293T细胞中系统性地测试其C-to-T编辑效率。这一实验性的“地毯式扫描”带来了前所未有的数据量:其中有322个CD表现出超过10%的编辑效率,224个酶的表现超越了业界常用的高保真编辑酶YE1,更有24个酶的效率甚至超过了著名的高效编辑工具人源APOBEC3A(hA3A)。这一系列结果不仅构成了目前单一蛋白家族最大的功能验证数据集,也为后续的AI建模奠定了坚实基础。



多模态AI模型的建立与验证

传统的蛋白功能预测往往依赖于序列或结构相似性,但实际研究发现,功能差异与结构相似性并不总是呈现直接相关。为此,团队开发了一个融合多模态特征的机器学习模型AlphaCD。他们引入了包括蛋白序列聚类(CD-HIT)、蛋白结构聚类(TM-Cluster)、亚家族分类、蛋白长度以及等电点、GRAVY值、不稳定指数等理化性质在内的八类特征。基于这些信息,团队构建了四个模型:两个回归模型分别用于预测催化效率与脱靶效应,两个分类模型则用于预测编辑窗口和序列基序偏好。

经过训练,模型的表现令人瞩目。在催化效率预测上,回归模型的预测精度达R²=0.92;在脱靶效应预测中,精度也高达0.84。分类模型同样表现优异:编辑窗口和基序偏好的预测精度分别高达0.95和0.93。为了进一步验证模型的可靠性,团队选取了28个此前未被功能验证的胞嘧啶脱氨酶进行实验,结果显示预测值与实测数据高度一致。这些结果证明,AlphaCD不仅是理论上的成功,更具备在实际应用中指导研究的能力。


大规模预测:2万多个胞嘧啶脱氨酶中的“隐藏王者”

在模型建立和验证之后,研究团队将AlphaCD扩展应用于UniProt数据库中全部21,335个APOBEC样胞嘧啶脱氨酶序列,实现了真正意义上的大规模功能预测。预测结果显示,有18,138个胞嘧啶脱氨酶的效率超过10%,其中7,628个超过20%,更有522个超过30%。借助AlphaCD的高通量预测能力,团队得以在庞大的蛋白库中快速筛选出潜在的功能“王者”,这标志着基因编辑工具的发现过程正在被彻底加速和重塑。




精准突变优化:打造媲美ABE的“高效CBE”

在实验与预测中,研究团队发现一个名为A0A2R2Z4E4的胞嘧啶脱氨酶表现突出,其催化效率高达59.9%,但脱靶效应也相对较高。为了克服这一限制,团队通过丙氨酸扫描构建了185个点突变体,并逐一进行筛选。最终,E100A突变体脱颖而出:与野生型相比,它的脱靶效应降低了43.9%,而催化效率却进一步提升。更令人振奋的是,该突变体的性能远超当前常用的工具,其特异性比高保真酶YE1提升了1.2倍,编辑效率是ABE8e的1.3倍,ABEmax的3.3倍。由此,研究团队成功构建出一个兼具高效率和高保真的“超级CBE”,真正实现了功能上的质的飞跃。




应用示范:从小鼠到人类细胞

为了验证AlphaCD优化成果的实际应用潜力,研究团队进一步在疾病相关基因上开展实验。在小鼠N2A细胞中,A0A2R2Z4E4E100A CBE表现出平均47.6%的C-to-T编辑效率,并能以42.7%的效率引入无义突变,显著优于所有对照酶。在人源HepG2细胞中,研究人员靶向了高胆固醇血症相关基因PCSK9的剪接位点,结果显示剪接破坏率高达79.2%,并且细胞对LDL的摄取能力提升了14.8%。这些结果表明,AlphaCD不仅在方法学上取得了突破,更能直接推动基因治疗和精准医学的发展。




深远意义与未来展望

这项研究的意义不仅在于改造出一个更强的CBE工具,更在于提供了一种可推广的方法学框架。首先,在方法学层面,它展示了一种可被应用于其他蛋白家族的多模态功能预测方案;其次,在蛋白注释层面,它为海量未表征的蛋白序列提供了高效的自动化功能注解路径;最后,在编辑工具层面,它催生了新一代超高效、超高特异性的碱基编辑器,极大拓展了基因治疗、农业育种等领域的应用前景。

尽管当前人工智能大模型在工业届算力支持下进展迅速,但其高昂的计算成本常使学术界难以承担。本研究创新性地采用高质量实验数据集,在个人计算机上基于随机森林算法训练轻量化模型,无需依赖昂贵超算资源,不仅在预测精度上超越超大规模参数模型,更将蛋白质功能预测从定性推至高精度定量新阶段。AlphaCD不仅是一款功能预测工具,更代表了蛋白质功能预测新研究范式的诞生。正如AlphaFold革命性推动结构生物学发展,AlphaCD也有望重塑基因编辑酶的研发模式,开启功能导向的蛋白质设计革新。


基因组所(大鹏湾实验室)左二伟研究员为论文通讯作者,博士后徐奎、华国营、张海航和博士生吴明第为论文共同第一作者,硕士生刘京达,博士后冯虎参与工作。该研究得到了国家重点研发计划、国家自然科学基金等项目的支持。

TOP TOP