MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

基因组所研发出新型转录组定量方法

2023-09-07 02:45:57来源:

【字体:

  


近日,《生物信息学简报(Briefings in Bioinformatics)》 在线发表了基因组所易会广课题组联合南方科技大学的研究论文,题为“A fast and globally optimal solution for RNA-seq quantification(核糖核酸测序定量的一种快速且全局最优的解决方案)”。该研究开发了一种新型RNA-seq(核糖核酸测序)定量方法TQSLE, 可准确定量序列高度相似的转录本的表达水平,尤其是当不同转录本包含了拷贝数不同(CNVs)的重复序列片段时,TQSLE是目前唯一的能给出准确转录本表达定量的非基于序列比对(Alignment-free)的方法。



基于RNA-seq的转录本或基因表达定量(简称RNA-seq定量)在生物医学领域中具有极其广泛的应用,例如发现表型关联基因、组织中的细胞类型分类以及研究疾病进程等。RNA-seq定量的核心流程是:1)预先对已知的参考转录组序列进行索引。2)对于每个样本的RNA-seq数据,将RNA-seq序列读段(reads)或者序列读段的K-子串(Kmer)映射到参考转录组序列上,通过计算、统计推断方法估算出各参考转录本的表达量。根据reads/Kmer映射的策略不同,RNA-seq定量方法可分为基于序列比对的(Alignment-based)和非序列比对的(Alignment-free)两类。Alignment-based的方法在一些情况下映射更为精确,但Alignment-free 的方法比Alignment-based的方法通常快数十倍,更适合于高通量RNA-seq数据的分析。


由于存在着序列极其相似的不同参考转录本,一部分RNA-seq reads(或Kmer)无法唯一地映射到其来源转录本上(称之映射不确定性),从而令通过映射reads的计数进行转录本定量这一简单想法变得不可行。此前的RNA-seq定量方法,如RSEM、Kallisto、Salmon等使用最大期望(Expectation-maximization algorithm,简称EM)算法来解决映射不确定性问题。但EM算法只保证局部最优解而非全局最优解。尤其是对映射较不精确的Alignment-free 的方法如Kallisto、Salmon等,EM算法的误差可能被进一步放大。


因此,研究人员开发了一种非基于EM算法且非序列比对的方法 TQSLE,为RNA-seq定量提供一个快速且全局最优解(下载地址:https://github.com/yhg926/TQSLE)。在参考转录组索引这一步,TQSLE构建一个Kmer频率矩阵 A,矩阵 A的每一行表示一种存在的Kmer,每一列表示一个参考转录本,值Aij表示Kmer i在转录本j中出现的次数,并可根据预设的RNA-seq偏倚模型赋权。 在RNA-seq序列映射这一步,TQSLE构建一个Kmer频率向量 b,其值bi 表示Kmer i在RNA-seq中的出现的次数。通过求解线性方程组 Ax = b 即可求得转录本表达量 x(图1)。



图1|TQSLE算法原理


先前研究已发现非序列比对的RNA-seq定量方法难以对基因ENSG00000205944的9个相似转录本进行准确定量。本研究模拟了ENSG00000205944 RNA-seq数据,并用包括TQSLE的各种方法进行定量,发现只有TQSLE和RSEM的定量结果是可靠的。进一步研究表明,ENSG00000205944的不同转录本含有拷贝数不同的重复序列(CNVs),并且重复序列之间略有差异,据此,研究人员提出了一个猜想来解释这个结果:不同转录本含有拷贝数不同的重复序列(CNVs),如果拷贝是完美无突变的,理论上将导致所有基于EM算法的方法(即除TQSEL外的所有方法:RSEM,Kalliso,Sailfish和Salmon)失效,但若拷贝有少量突变,那么基于比对的RSEM法也能准确定量。为了验证这个假设,研究人员构造了两个参考转录本A 和 B,其中A含有2个单元序列的拷贝,B含有3个单元序列的拷贝。在A+B的模拟RNA-seq数据上,只有TQSLE能够准确定量,所有基于EM算法的RNA-seq定量法,包括RSEM都失败了。接着,在转录本B的第三个单元序列上引入点突变打破完美CNVs,构造转录本B’。 在A+B’的模拟RNA-seq数据上,只有TQSLE和RSEM可以准确定量,而所有的基于EM算法的非序列比对法都失败了。从而证实了上述猜想的正确性,并展示了基于EM算法的RNA-seq定量法的局限性。



图2|在相似转录本的模拟RNA-seq数据上TQSLE与其它方法的定量准确度


研究还比较了TQSLE和其他方法在SEQC HRR样本混合前后的RNA-seq定量的一致性。SEQC HRR实验样本包含A、B、C三个样本,其中C由A和B按3:1比例混合而成,每个样本5个重复,共15个样本。因此,理论上表达量服从理论模型C ∼ 0.75 × A + 0.25 × B。研究发现,TQSLE较之其他方法得到的定量与理论模型拟合的更好。


图3|TQSLE与其它方法在SEQC实验样本混合前后一致性的比较



基因组所副研究员易会广和南方科技大学生物系硕士生林彦灵(已毕业)为该论文的第一作者,基因组所副研究员易会广和南方科技大学生物系副教授靳文菲为该论文的通讯作者,基因组所易会广课题组科研助理常青参与了该研究。该研究得到深圳市基础研究机构专项、深圳市博士后出站科研资助、深圳市大鹏新区博士后出站科研资助及中国国家自然科学基金的资助。





TOP TOP