吴明琪、Monique Rijnkels 和梁发明
由于其更高的分辨率映射和更强的 ChIP 富集信号,ChIP-seq 有望取代 ChIP-chip 技术用于研究全基因组蛋白质-DNA 相互作用,而海量的数字 ChIP-seq 数据给统计学家带来了新的挑战。到目前为止,文献中提出的大多数 ChIP-seq 数据分析方法都是基于模型的,然而,考虑到生物系统的复杂性和测序过程中产生的变化,找到一个适用于所有数据集的单一模型是不可能的。在本文中,我们提出了一种用于 ChIP-seq 数据分析的无模型方法,即所谓的 MICS(无模型推断 ChIP-Seq)。与现有方法相比,MICS 具有一些优势:首先,MICS 避免了对数据分布的假设,因此即使违反了数据的模型假设,它也能保持高功效。其次,MICS 采用基于模拟的方法来估计错误发现率。由于基于模拟的方法独立于 ChIP 样本工作,因此 MICS 可以对各种 ChIP 样本表现出稳健的性能;它可以准确识别峰区域,即使对于富集较弱的区域也是如此。第三,MICS 的计算效率非常高,对于相当大的数据集,在个人计算机上只需几秒钟即可完成。在本文中,我们还提出了一种简单的半经验方法来模拟 ChIP-seq 数据,该方法可以更好地评估不同 ChIP-seq 数据分析方法的性能。基于真实和模拟数据集,将 MICS 与几种现有方法进行了比较,包括 MACS、CCAT、PICS、BayesPeak 和 QuEST。数值结果表明 MICS 的表现优于其他方法。可用性:可在 http://www.stat.tamu.edu/~mqwu 上获取名为 MICS 的 R 包。