MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Plant Communications | 基因组所潘玮华团队与中科大、海南大学联合开发了染色体着丝粒序列自动识别工具CentIER

2024-08-14 05:57:00来源:

【字体:

  


2024年8月8日,《植物·通讯(Plant Communications)》在线发表了中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)潘玮华团队联合中国科学技术大学徐云教授课题组、海南大学陈飞教授团队的研究论文,题为 “CentIER: accurate centromere identification for plant genome”。该研究开发了一个着丝粒预测工具CentIER,该工具能够在T2T组装的基因组中准确预测染色体的着丝粒区域和范围。



如何准确识别着丝粒是基因组学领域的一个重要问题。ChIP-seq 实验受到了物种特异性的影响而通过查询串联重复序列来确定着丝粒区域的方法会导致着丝粒识别的偏差甚至错误。在着丝粒没有得到组装的前提下很难通过其序列特征来预测着丝粒区域。然而,近年来,随着 T2T基因组组装技术的发展,越来越多物种的着丝粒得到了较为完整的组装,这为我们通过序列特征来识别着丝粒奠定了重要基础。


与以往通过识别串联重复序列来确定着丝粒不同,CentIER在设计时充分考虑了包括串联重复序列、反转录转座子、k-mer频率分布在内的序列特征并允许用户通过输入基因组结构注释文件以及Hi-C信号文件来进一步明确着丝粒区域。在识别单着丝粒的同时,我们也设计了相应程序来识别多着丝粒染色体(Metapolycentric Chromosomes)的着丝粒区域。



通过对拟南芥、水稻、玉米、大豆、桑树等物种着丝粒的预测,我们发现 CentIER 的准确性保持在90%以上,各项准确性预测指标高于同类型软件20%以上。以着丝粒较难预测的玉米为例,CentlER准确预测10条染色体中9条染色体的着丝粒区域。


源程序及测试文件可由github (https://github.com/simon19891216/CentIER/releases/tag/CentIERv2.0)下载。对于登录 github 有困难的用户可以选择到 https://gitee.com/SimonX19891216/CentIER下载或者加入QQ群聊(1001056790)中与我们的开发者一起进行探讨。


基因组所出站博士后许东(现工作于中国热带农业科学院橡胶研究所),基因组所与华中农业大学联合培养博士生杨金宝,中国科学技术大学已毕业硕士温华铭,基因组所与华中农业大学联合培养硕士冯文乐为本文共同第一作者,已毕业硕士张霄慧、惠兴岐、基因组所已出站博士后杨映雪为共同作者,中国科学技术大学徐云教授,海南大学南繁学院陈飞教授,基因组所潘玮华研究员为本文通讯作者。该研究得到国家自然科学基金、中国农业科学院科技创新工程等项目的支持。


原文链接:https://www.sciencedirect.com/science/article/pii/S2590346224003870



TOP TOP