MENU

新闻中心

当前位置: 首页» 新闻中心» 媒体报道

【经济日报】重磅!我科学家将基因组分析速度提升5倍

2019-12-12 12:00:00来源:

【字体:

  

  自基因组学技术问世以来,测序与分析一直就是基因组学技术中最主要的两个环节。实际上,与繁重的测序工作相比,基因组的分析也同样复杂,需要耗费大量时间。

  然而,近年来随着基因组学技术突飞猛进的发展,这种状况正在逐步发生改变。  

  2019年12月9日,中国农科院深圳基因组所阮珏团队在《自然·方法学》(Nature Methods)上发表第三代测序数据组装算法wtdbg,该算法极大提高三代测序数据的分析效率,与2019年4月1日发表在《自然·生物技术》(Nature Biotechnology)上的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。 

  

  基因组的测序与分析  

  DNA 测序技术成熟于上世纪 70 年代中后期, 随后的 20 多年里,第一代测序技术测出了不少简单的小型基因组。

  1990年人类基因组计划(Human Genome Project ,HGP)的提出,使得基因组测序技术逐步由实验室迈入商业化阶段,到2004年人类基因组计划完成时,第二代基因组测序技术已经相对成熟,并开始大规模的商业化应用。

  2013年,单分子等第三代测序技术开始出现, 也预示着测序技术将应用更广,测序的成本越低。

  “如今完成一个人的全基因组测序已经是件普通实验室甚至家庭都可以负担起费用的‘平常’事情了。以三代测序为例,完成个人全基因组测序仅需1天时间、费用低于5万元。”论文作者、中国农业科学院农业基因组研究所研究员阮珏告诉记者。

  在测序技术日新月异的同时,分析技术也在共同成长。以人类基因组组装为例,在2014年时,需要消耗50万个CPU小时(一个CPU核心运行一个小时),而且只能在超大计算机集群上进行。

  “这种情况下,同时对大量个体进行组装分析是难以想象的。以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。”阮珏说。

  

  关键钥匙:模糊布鲁因图 

  Wtdbg算法的开发得益于一个新的组装图理论(Fuzzy Bruijn Graph,模糊布鲁因图)的提出。模糊布鲁因图借鉴了德布鲁因图(de Bruijn Graph)的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。

  德布鲁因图是一个展示符号序列之间重叠关系的有方向的图。上世纪90年代,Pavel A. Pevzner将德布鲁因图引入了基因组组装领域。德布鲁因图以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高的难题,从未成功应用在第三代测序数据。

  2013年开始,阮珏和李恒在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。模糊布鲁因图重新对短串进行定义,使之能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。

  

  不断进化的新算法 

  近年来,生物信息学领域的科学家们致力于改变这种数据产出速度远高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。

  中国农业科学院农业基因组研究所在成立之初就布局成立组学技术研究中心,致力于将前沿测序技术引入农业科学研究中。

  2013年,阮珏与美国哈佛医学院的李恒博士合作开始了测序数据分析方法如组装算法的开发,力求推动测序数据的分析速度更快、分析质量更高。

  2016年,他们的研究结束,并将研究成果(wtdbg)对所有人免费开放使用。3年来,这项成果不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。

  “我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还带来了新的想法和思路。算法是需要不断在实践中进行完善的,因此这种开源的做法在业内是很普遍的行为。只有通过更多的实际应用,我们才能够将这套算法进行更有效地调整和改进。实际上,目前的算法相比于2016年的,已经是2.0版本,更高版本的算法于今年年初也开始了研究。”阮珏告诉记者。

TOP TOP