Lubke GH、Laurin C、Walters R、Eriksson N、Hysi P、Spector TD、Montgomery GW、Martin NG、Medland SE 和 Boomsma DI
通常,全基因组关联研究包括使用加性遗传模型分别对每个 SNP 上的表型进行回归。尽管存在针对隐性、显性、SNP-SNP 或 SNP-环境相互作用的统计模型,但测试负担使得对所有可能的影响进行评估对于全基因组数据来说不切实际。我们提倡采用两步方法,其中第一步包括一个对不同类型的 SNP 主效应和相互作用敏感的过滤器。目的是大幅减少 SNP 的数量,以便在第二步中实现更具体的建模。我们对一种称为“梯度提升机”(GBM)的统计学习方法进行了评估,该方法可用作过滤器。GBM 不需要先验地指定遗传模型,并且允许包含大量协变量。因此,GBM 可用于探索多个 GxE 相互作用,这在 GWAS 中使用的参数框架内是不可行的。我们在模拟中表明,即使在有利于 GWAS 中常用的标准加性回归模型的条件下,GBM 也能表现良好,并且即使其中一个相互作用变量的主效应为零,它也能敏感地检测相互作用效应。后者在 GWAS 中不会被检测到。我们的评估伴随着对头发形态的经验数据的分析。我们估计了由排名最高的 SNP 数量增加所解释的表型变异,并表明在两步方法的第一步中选择 10K-20K 个 SNP 就足够了。