MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

基因组所阮珏团队发布性染色体组装新方法SRY

2024-04-21 02:27:29来源:

【字体:

  


2024年4月16日,《GigaScience》在线发表了中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)阮珏课题组发表的研究论文,题为“An effective strategy for assembling the sex-limited chromosome”。



随着测序技术的发展,测序序列的长度和碱基准确性方面都有了显著提高,这为利用计算方法去分选序列,从而降低组装难度提供了可能。Canu软件利用父母本的特异k-mers对子代的三代序列进行分选并进行单体型组装。Hifiasm和Verkko软件利用父母本的数据对组装图分型并提供两套单倍型组装结果。此外,在植物基因组组装中,也有其它的方法实现基因组的分型。例如,Mari等人利用多个子代数据实现四倍体马铃薯基因组的单体型组装。


为进一步提高性别特异染色体的组装质量,基因组所(省实验室深圳分中心)阮珏团队开发了一款名为SRY的软件,旨在通过雄性特异k-mers(male specific k-mers, MSK),高效地对性染色体三代测序序列进行分选。SRY软件通过比较雄性和雌性群体二代数据鉴定出MSK,并根据雄性个体三代测序序列上的MSK密度筛选出性染色体的三代序列。


SRY的分选效率主要受到测序覆盖度和群体杂合度的影响。通过理论模型和基于人类基因组模拟数据的评估显示,增加个体数量可以提高SRY鉴定MSK的F1-score值,雌雄个体数各增加到7个时,F1-score值趋于稳定(图2a)。在分选效率方面,即使MSK的准确率降低到70%,SRY分选的F1-score值也可以达到90%以上(图2b)。


图2 | 利用理论模型及模拟数据对SRY的MSK鉴定(a)和三代序列分选(b)的效率


为了检验SRY在真实数据中的表现,首先收集了汉族人群的46个男性和44个女性的二代测序数据,以及中国人HX1的三代测序数据。与Flow sorting相比,SRY的三代数据分选效率高出近一倍,且在人类Y染色体的异染色质区域内的覆盖度及深度方面优于Flow sorting。进一步收集了HG002的超长Nanopore及PacBio HiFi数据,并与Verkko软件的trio模式组装结果做比较。结果显示,经SRY分选后的三代数据再使用Verkko组装的contig数目从23个(Verkko trio组装结果)减少到了9个(图3b),并纠正了一个Verkko trio的组装错误(图3a)。此外,Verkko trio在Y染色体的拟常染色体区域(PAR)的前1Mb范围内分型结果较差,而Verkko+SRY模式给出了更完整的组装效果,且准确度上更高。


图3 | Verkko Trio模式(a)与Verkko+SRY(b)的组装结果比较


基因组所(省实验室深圳分中心)已毕业博士生王晓波(现于河南省农业科学院/神农种业实验室工作)、中国水稻研究所鲁宏伟副研究员和佛山科学技术学院刘庆友教授为本文的共同第一作者。基因组所(省实验室深圳分中心)阮珏研究员与中国科学院数学与系统科学研究院的朱天琪副研究员为本文的通讯作者。基因组所(省实验室深圳分中心)李阿伦、周红玲及中国科学院动物研究所的张勇研究员也为本文提供了重要帮助。


论文地址:https://doi.org/10.1093/gigascience/giae015









TOP TOP