Miroslaw J. Gilski 和 Rovshan G. Sadygov
人类蛋白质组组织 (HUPO) 蛋白质组标准倡议的任务是开发用于存储原始数据 (mzML) 和蛋白质组学实验的光谱处理结果 (mzIndentML) 的文件格式。为了充分描述复杂实验,设计了特殊的数据类型。标准化文件格式将促进数据的可视化、验证和传播,而不依赖于特定于供应商的二进制数据存储文件。创新的编程解决方案可实现对标准化文件格式的稳健和高效数据访问,这将有助于蛋白质组学界更快地广泛接受这些文件格式。在这项工作中,我们比较了用于访问 mzML 文件格式的光谱数据的算法。作为 XML 文件,mzML 文件允许在使用特定于 XML 的类类型时高效解析数据结构。这些类仅提供对文件的顺序访问。但是,在处理蛋白质组学数据集的许多算法应用中,需要随机访问光谱数据。在这里,我们演示了内存流的实现,以将顺序访问转换为随机访问。我们的应用程序保留了出色的 XML 解析功能。在顺序和随机访问模式下对文件访问时间进行基准测试表明,虽然对于少量光谱,随机访问更节省时间,但当检索大量光谱时,顺序访问变得更高效。我们还提供了与学术界和业界其他文件访问方法的比较。