新浪博客

GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进

2015-06-27 19:31阅读:
上篇博文中提到,由于Marker之间存在LD,所以用Bonferroni校正对GWAS结果的错误发现率进行控制过于保守。而置换检验由于计算量太大,很难操作。既然Bonferroni校正的前提是每次试验独立,那么我们可不可以计算等效的独立SNP个数呢?
上篇博文中重画Q-Q图的思想就是一种方法,根据全基因组的LD-decay水平将基因组划分成若干block,block的个数就是等效的独立试验次数,那么校正后的显著水平应该为α/block数。但是这种方法过于粗糙,因为基因组局部的LD水平差异很大。下面介绍几种引用率较高的方法。
1. sampleM(Gao, Starmer et al. 2008)
该方法先建立任意两SNP之间的CLD(composite LD)矩阵,然后对该矩阵进行主成分分析,将贡献率达到99.5%的主成分个数作为等效的独立试验次数。具体步骤如下:
a. 计算CLD矩阵,直接用R语言的cor()函数,注意基因型编码方式:homo-alt-ref用0表示,het用1表示,homo-as-ref用2表示;
b. 计算特征值,直接用R语言的eigen()函数;
c. 将特征值从大到小累加到特征值总和的99.5%的特征值个数记为等效独立试验次数Meff
d. 矫正后的显著性水平α’=α/Meff
需要注意的是,该方法不能有基因型缺失,所以要先进行基因型缺失推断。且Marker数量不能大于1,000,对于Marker数大于1,000的数据,需要对染色体进行划分,单独计算每个block的Meff,然后将所有Meff求和,作为最后的等效独立试验次数

从图1模拟的结果可以看出,SampleM和置换检验(Permutation)的结果相近,Bonferroni校正过于保守。
GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进
图1 SampleM模拟结果与其他方法比较

2. Keff (Moskvina and Schmidt 2008)
该方法与sampleM原理相似,只是计算LD的方法不一样。在Gao的一个Report(Gao, Becker et al. 2010)中对这两种方法进行了模拟比较,发现sampleM效果更好。
3. SLIDE(B, HM et al. 2009)
该方法与前两种方法的主要不同用图2表示,可以当作是对前两种方法的改进。由于在大量Marker时使用sampleM需要划窗口,这就使得窗口之间的相关性没有考虑。而SLIDE为滑动窗口,使得其忽略的窗口之间的关联比较少。如图2,A是所有Marker的相关性,B为划窗口考虑的相关性(黑色为忽略的部分),C为滑动窗口考虑的相关性。
该软件可以在http://slide.cs.ucla.edu网站下载使用。
GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进
图2 SLIDE方法的优点
怎样增加GWASpower的同时降低假阳性率,科学家们长期以来做了很多努力,上面提到的3个方法就是其中的一个方向。刚刚发表的一种方法(Tasan, Musso et al. 2015),就成功的在人类复杂疾病中得到了成功应用。该方法的前提假设是影响同一个性状的基因,在功能或者蛋白质结构域等方面存在相似的地方。然后构建一个所有人类基因的关系数据库,包括代谢通路、功能、蛋白质结构域等方面的关系。最后将GWAS结果中,和显著Marker连锁的所有基因通过这个关系数据库进行富集。这个方法为其他物种的GWAS分析提供了一个很好的思路。

参考文献
1. B, H., K. HM and E. E (2009). 'Rapid and Accurate Multiple Testing Correction and Power Estimation for Millions of Correlated Markers.' PLoS Genet 5(4): e1000456.
2. Gao, X., L. C. Becker, D. M. Becker, J. D. Starmer and M. A. Province (2010). 'Avoiding the high Bonferroni penalty in genome-wide association studies.' Genet Epidemiol 34(1): 100-105.
3. Gao, X., J. Starmer and E. R. Martin (2008). 'A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms.' Genet Epidemiol 32(4): 361-369.
4. Moskvina, V. and K. M. Schmidt (2008). 'On multiple-testing correction in genome-wide association studies.' Genet Epidemiol 32(6): 567-573.
5. Tasan, M., G. Musso, T. Hao, M. Vidal, C. A. MacRae and F. P. Roth (2015). 'Selecting causal genes from genome-wide association studies via functionally coherent subnetworks.' Nat Methods 12(2): 154-159.

我的更多文章

下载客户端阅读体验更佳

APP专享