MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Genome Biology | 潘玮华团队开发新算法TRFill,解决重复序列组装难题

2025-07-31 09:37:00

【字体:

  

2025年7月28日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)潘玮华团队联合美国加州大学河滨分校Stefano Lonardi教授和中国科学技术大学徐云教授课题组在《基因组生物学(Genome Biology)》上在线发表了题为 “TRFill: synergistic use of HiFi and Hi-C sequencing enables accurate assembly of tandem repeats for population-level analysis”的研究论文。


该研究开发了一个基因组重复区域组装工具TRFill,该工具能够在有近缘T2T参考基因组的情况下对重复区域以及大的Gap区域进行填补。



由于重复区域(如串联重复、散列重复、染色体着丝粒序列)的复杂性,大多数物种的基因组组装并不完整,影响后续分析准确性。 随着长读长测序技术(如 PacBio HiFi 和 Nanopore)的发展,端粒到端粒(T2T)组装已成为可能。然而,对于大多数物种来说,仅依靠现有组装软件仍难以完全填补基因组间隙。该研究提出一种新方法 TRFill,利用 HiFi 和 Hi-C 数据,结合近缘物种的参考基因组,可自动填补复杂重复区域的缺口,提高基因组完整性,为群体水平重复序列研究提供了新工具。


图1|TRFill组装方法示意图


TRFill 是一种用于填补基因组重复区域缺口的算法,其核心步骤包括:首先将测序数据比对到近缘参考基因组,识别并召回与目标重复区域相关的 reads;接着使用 hifiasm 构建 unitig 图,并通过配对出入边、去除冗余路径,生成更完整的 contig 图;随后,通过动态规划和遗传算法确定 contig 在参考基因组上的最优位置,确保对重复区域的准确覆盖;最后,在二倍体基因组中,利用模拟退火算法对 contig 进行单倍型分型,最大化 HiFi 和 Hi-C 数据的支持,同时减少单倍型间长度差异。该方法适用于复杂重复区域的局部组装与准确补全。


实验结果表明,TRFill 以CHM13 T2T基因组为参考,在人类二倍体HG002着丝粒序列组装中能有效提升重复区域的序列完整性,在对番茄群体基因组端粒附近串联重复区域中,能够有效提升约三分之二重复序列的完整性和准确性。同时,TRFill 对端粒重复序列的补全使得对这些复杂重复序列进行群体水平分析成为可能,具体分析请见原文。


中国科学技术大学硕士温华铭,基因组所与华中农业大学联合培养博士生杨金宝为本文共同第一作者;已毕业硕士赵贤嘉,华中农业大学与基因组所联合培养硕士生王兴彬,科研助理雷佳伟,基因组所与太原理工大学联合培养硕士生李雁春,基因组所与西南大学联合培养硕士生杜文杰,太原理工大学副教授李东喜以及中国科学技术大学徐云教授为本文共同作者;美国加州大学河滨分校Stefano Lonardi与基因组所潘玮华研究员为本文通讯作者。该研究得到国家自然科学基金、中国农业科学院等项目资助。


TRFill下载链接:https://github.com/panlab-bioinfo/TRFill.git


原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03685-5

TOP TOP