Ahmad Maleki*、Vahid Vaezinia 和 Ayda Fekri
启动子是位于基因之前的 DNA 序列的一部分,是基因调节的关键。启动子预测有助于确定基因位置和分析基因表达。因此,它在生物信息学领域具有重要意义。在生物信息学研究中,许多机器学习方法被用于从生物数据库中发现新的有意义的知识。在本研究中,两种学习方法,期望最大化聚类和支持向量机分类器 (EMSVM) 用于执行启动子检测。期望最大化 (EM) 算法用于识别行为相似和不相似的样本组,例如第一阶段的启动子和非启动子的活性,而支持向量机 (SVM) 用于第二阶段将所有数据分类到正确的类别中。我们已将此方法应用于与 σ24、σ32、σ38、σ70 启动子相对应的数据集,并在一系列不同的启动子区域上证明了其有效性。此外,还与其他分类算法进行了比较,表明了所提算法的适当性能,测试结果表明EMSVM的表现优于其他方法。