MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

基因组注释的发展历程:从传统到创新

2024-06-14 12:05:38来源:

【字体:

  


近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)张兴坦课题组在《生物信息学简报(Briefings in Bioinformatics)》上发表了题为“From Tradition to Innovation: conventional and deep learning frameworks in genome annotation(从传统到创新:基因组注释中的传统和深度学习框架)”的综述论文,介绍了传统的基因组注释方法以及缺点,并概述了基因组注释中深度学习框架的进展,包括原理、模型和方法,对深度学习在基因组注释中的应用提供了一个入门指导。



基因组注释是通过应用生物信息学方法和工具,识别基因组序列上的各种元素,包括编码基因、非编码RNA、转座子等重复序列和调控元件等,并推断它们的生物学功能。传统的基因组注释方法,如基于杂交技术或湿实验方法,严重依赖操作者的经验和技术,成本较高且应用有限。早期的生物信息学算法和软件(如Blast2GO、InterProScan和GeneMark等)主要采用浅层学习技术,处理高通量数据的能力有限。


深度学习,作为机器学习的重要分支,包括输入层、多个隐藏层和输出层。对于基因组序列这样高维且异构的数据,传统的特征提取方法可能会因为数据复杂性而显得力不从心。深度学习模型通过构建多个隐藏层,学习大量样本数据的内在规律和潜在表示,同时保留数据中的关键信息,如图1所示。首先,原始测序数据经过特征编码(如one-hot编码、词嵌入、k-mer计数等方式)转换成深度学习模型的输入表示,深度学习通过逐层处理、特征转换以及增加复杂性三个关键步骤对输入数据进行非线性建模,自适应地发现数据中的复杂模式和关联,无需手动设计,便于后续地预测和分类任务,形成端到端的模型。


图1.基因注释中的深度学习工作流程。深度学习模型的输入数据是原始序列数据,这些数据是通过基因组测序获得的短读取序列,在序列拼接和组装后得到。在输入到深度学习模型之前,它首先进行特征编码,然后输入到由多个隐藏层构建的深度学习网络中。深度学习网络通过多个隐藏层从输入数据中提取潜在特征,用于后续基因组组件的分类和预测。


文章进一步讨论了深度学习在转座子元件(TE)、蛋白质编码基因、功能注释、调控元件和结构变异检测等基因组注释领域的应用,为生物信息学研究和基因组学领域的发展注入了新的活力。


转座子元件是基因组中最常见的重复序列,通过利用卷积神经网络(CNN)等技术,研究人员能够更准确地识别和分类不同类型的转座子,大大提高了注释的准确性和效率。例如,DeepTE工具利用CNN从序列数据中提取特征,实现了对植物、后种动物和真菌TE的准确分类,为基因组注释提供了有力支持。


由于真核基因组的复杂性和多样性,传统的机器学习方法难以完全捕捉到编码区域的特征。然而,深度学习模型能够将基因序列映射到高维特征空间,从而更好地识别外显子和内含子,并准确预测剪接位点。这为我们更深入地理解蛋白质编码的结构和功能提供了新的途径。


功能注释是基因组学研究中的关键环节,传统的基因功能注释方法往往受限于离散的数据和手动处理过程,而深度学习技术则能够从大量生物数据中学习,并推断基因和生物功能之间的相互作用。例如,Gene2vec利用深度学习模型将基因表达数据转换为文本,预测未知基因的功能。这种方法在多个物种的基因注释任务中表现出了良好的效果,为基因功能研究提供了新的思路。


此外,深度学习技术在识别启动子、增强子等调控元件、检测结构变异等方面同样展现出了强大的应用潜力,正在推动基因组学研究迈向新的高度。随着技术的不断发展和数据的不断积累,我们相信深度学习将继续发挥重要作用,为研究人员理解基因组的结构、功能和调控提供更深入的见解。


基因组所实习生陈兆佳为论文第一作者,基因组所张兴坦研究员为论文通讯作者。该项目得到国家重点研发计划、深圳市基础研究任务、国家自然科学基因项目资助。


原文链接:https://doi.org/10.1093/bib/bbae138


TOP TOP