焦晓丽、郑鑫、马亮、Geetha Kutty、Emile Gogineni
PacBio RS 是一种新兴的第三代 DNA 测序平台,它基于实时单分子纳米级测序技术,可以生成非常长的读段(长达 20 kb),而第一代和第二代测序技术只能生成较短的读段。作为一个新的平台,评估测序错误率以及与 PacBio 序列数据相关的质量控制 (QC) 参数非常重要。在本研究中,使用 PacBio RS 测序平台对 10 个已知的、密切相关的 DNA 扩增子混合物进行测序。将上述测序实验得到的环状一致序列 (CCS) 读段与已知参考序列比对后,我们发现,在没有读段 QC 的情况下,中位错误率为 2.5%,而使用基于 SVM 的多参数 QC 方法,中位错误率降至 1.3%。此外,De Novo 组装被用作下游应用,以评估不同 QC 方法的效果。这项基准研究表明,即使 CCS 读取经过事后纠错,仍然需要对 CCS 读取进行适当的 QC,才能产生成功的下游生物信息学分析结果。