MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

基因组所提出DNA数字存储纠错新技术

2023-09-07 09:59:34来源:

【字体:

  


9月2日,基因组所阮珏课题组和潘玮华课题组在《国家科学评论(National Science Review)》期刊上发表了题为“Improving Error-correcting Capability in DNA Digital Storage via Soft-decision Decoding”的研究论文,该研究首次利用构建的DNA数字存储中的精确错误模型融入纠错码解码,实现了DNA数字存储技术中的软判决译码。该研究突破了先前研究中仅采用硬判决译码的纠错能力上限,使纠错数量提高至硬判决的2倍,对DNA数字存储的未来发展具有重要意义。特别是应用在便携设备的高错误率环境下,以及真正实现超大规模数据存储(如BrontoByte规模),起了推动发展的作用。


大数据时代下传统的以磁、光、电等为介质的存储设备已经无法满足海量数据存储的需求。DNA数字存储以其存储密度高(EB/g),存储寿命长(百万年)且维护成本低的优势,被视为一种具有潜力的存储技术和应对数据存储增长挑战的新机遇。然而,相较于传统存储,DNA数字存储过程中错误率较高,错误类型多样,为数据的准确恢复带来了挑战。前人研究普遍将测序错误视为随机错误,只能实现硬判决纠错,导致纠错能力受限于引入的冗余信息。然而,DNA的合成和测序存在错误偏好性,若将其合理利用能有效提升纠错效率。该研究探索了DNA存储过程中的错误偏好性,构建出错误预测模型,辅助现有纠错技术,并加入一系列创新的纠错策略,成功打破了冗余对纠错能力的限制,开发了软判决译码软件Derrick。


研究团队在编码时,采用该领域最常用的RS纠错码和CRC64校验码。在解码阶段,通过对测序序列做多序列比对,便捷地建立了错误预测模型,具体而言,根据多序列比对中每个碱基在多条序列上的支持度,作为碱基的可信度,可信度越低则该碱基更可能是错误的碱基。与硬判决解码时每一单位错误需要消耗2单位的逻辑冗余相比,在软判决纠错中,预测出错误位置将纠错所需的逻辑冗余降低一半,进一步地预测出错误位置的真值将直接进行纠正,从而消耗的逻辑冗余为0。因此,理论上能将纠错能力提升至信息极限。由于错误预测集包含着假阳性,Derrick通过迭代搜索直到解码成功或者超时。此外,Derrick还包含每次解码成功后的移位算法,以应对DNA存储中特殊的插入和删除错误。因为插入和删除若不及时修正,会导致序列中碱基位置偏移,之后的信息可能大片段出错,移位算法有效解决这个问题。为了进一步校验纠错后的数据,采用了CRC64校验和回溯算法。这是因为RS纠错也可能存在假阴性情况,通过CRC64校验可以检测到此类错误,并通过回溯算法进行错误识别,直到再次解码成功或超时。这一系列创新的策略实现了高效且鲁棒(robust)的软判决译码(图1)。



图1 Derrick纠错算法的示意概览


该研究在湿试验中成功存储了5.2MB的信息。在文件读取过程中,采用了Derrick解码方案,实际纠错数量相较于硬判决方式提升了两倍。实现100%信息恢复所需的测序深度仅为4×(应用Illumina测序)和8×(应用Nanopore测序),信息密度达到1.56 bit/bp。综合考虑测序成本和信息密度的优势,该研究达到了此领域最高水平(见图2)。进一步进行统计预测的结果显示,相较于硬判决方式,Derrick将无损存储容量提升了近5个数量级。为了进一步测试在更多文件类型上的效果,研究团队使用了一个包含视频、图片、软件等多种文件类型的数据集,总计11.7MB,进行了编码、模拟合成和PacBio CLR测序,以及解码的试验。通过进行11种不同码率的测试试验,结果均展示了Derrick的优越性能,同时为设计DNA存储试验时选择适合当前数据量和错误率的码率提供了详细指导。


图2 | 比较信息密度和测序冗余


Derrick为实现高存储容量和抗高错误率的数据存储提供了新的见解和解决方案。此外,该研究是对应用在DNA数字存储上纠错技术从原理上研发进行的改进,以往研究中的纠错方法都可以加入新提出的软判决策略大幅提升纠错能力。Derrick软件免费开放使用:https://github.com/wushigang2/derrick。


基因组所阮珏研究员和潘玮华研究员为该论文通讯作者。基因组所博士毕业生丁璐璐、科研助理伍世刚、客座硕士毕业生侯志浩为该论文共同第一作者。该研究得到了国家重点研发计划、国家自然科学基金、深圳市科技创新委员会和中国农业科学院科技创新工程的资助与支持。


原文链接https://doi.org/10.1093/nsr/nwad229




TOP TOP