David K. Crockett、Stephen R. Piccolo、Scott P. Narus、Joyce A. Mitchell 和 Julio C. Facelli
尽管已报道的许多 RET 致癌基因突变与遗传性甲状腺癌直接相关,但其他突变被标记为不确定的基因变异,因为它们与临床表型没有明确的关联。确定突变严重程度的过程既昂贵又耗时。信息学工具和方法可能有助于弥合这种基因型-表型差距。为了实现这一目标,对机器学习分类算法进行了评估,以确定其区分良性和致病性 RET 基因变异的能力,这些变异的特征是野生型和突变序列中存在的残基的物理化学性质值存在差异。从不同类别的机器学习分类技术中选择了代表性算法,包括规则、贝叶斯和回归、最近邻、支持向量机和树。然后将机器学习模型与用于突变严重程度预测的成熟技术进行比较。机器学习分类可用于仅使用主要序列信息准确预测 RET 突变状态。基于序列同源性(直系同源物保守性)或蛋白质结构数据的现有算法不一定更胜一筹。