Vimalkumar B Vaghela、Kalpesh H Vandra 和 Nilesh K Modi
如今,数据都存储在关系结构中。在挖掘这些数据的常用方法中,我们经常使用外键链接将多个关系连接起来形成一个关系,这被称为扁平化。扁平化可能会导致耗时、数据冗余和数据统计偏差等问题。因此,出现了一个关键问题,即如何直接在众多关系上挖掘数据。给定问题的解决方案是称为多关系数据挖掘 (MRDM) 的方法。其他问题是关系中不相关或冗余的属性可能不会对分类准确性做出贡献。因此,特征选择是多关系数据挖掘中必不可少的数据预处理步骤。通过从关系中过滤出不相关或冗余的特征进行数据挖掘,我们可以提高分类准确性,实现良好的时间性能,并提高模型的可理解性。我们提出了基于熵的多关系朴素贝叶斯分类器特征选择方法。我们使用了 InfoDist 方法和 Pearson 相关性参数,它们将用于从多关系数据库中过滤掉不相关和冗余的特征,并提高分类准确性。我们在 PKDD 金融数据集上分析了我们的算法,与现有的特征选择方法相比,我们的算法取得了更好的准确性。