在多重假设检验中,我们知道需要对错误率进行控制,我尽量简单说明原因:统计学中,我们作假设检验的前提是认为小概率事件在一次试验中不会发生。比如我们经常把显著性水平α设为0.05,也就是说,我们认为概率小于0.05的事件在一次试验中不会发生。但如果我们试验非常多次,那么小概率事件就极有可能发生了,所以在多重假设检验中,我们如果仍然把显著性水平设为0.05,那么假阳性事件会大大增多。
在GWAS分析中,我们对同一组表型数据,每一个分子标记(Marker,包括SNP或者SSR等等),都会作一次假设,即认为这个Marker会影响这个表型。这是典型的多重假设检验问题,所以需要对假阳性率进行控制。
由此在多重假设检验中提出了FDR,即错误发现率。对多重假设检验中的错误发现率的控制方法很多,在GWAS分析中,运用得最广泛的就是Bonferroni校正了,其原理是将原显著性水平(α)校正为α/M,M为检验的次数,在GWAS分析中为Marker数。
但是Bonferroni校正的前提是每次试验都是独立的。而在GWAS分析中,由于Marker之间存在连锁不平衡(LD),所以不符合Bonferroni校正的前提。在早期的GWAS研究中,由于技术水平限制,Marker数比较少,Marker在基因组中的物理距离一般比较远,LD水平不是很高,所以用Bonferroni校正也是可取的。但随着高通量测序技术的发展,开发的SNP标记密度非常高,由于SNP之间的强连锁,使得Bonferroni校正变得过于保守。
下图来源于一个真实GWAS项目,即Q-Q图。在GWAS分析中,我们用Q-Q图来检验模型的可靠性。纵坐标为观测值(-log10P),横坐标为期望值。理想模型中,观测值和期望值是相等的,只有在右上角有一些点,是观测值大于期望值(与表型关联的标记)。但在我们的项目中,发现观测值整体是小于期望值的(下图右),所以我们怀疑是Bonferroni校正引起的。于是,我们按照基因组平均的LD-decay水平,划窗口选择了部分标记来作Q-Q图(下图左),发现观测值基本等于期望值,这证实了我们的猜测。
在GWAS分析中,我们对同一组表型数据,每一个分子标记(Marker,包括SNP或者SSR等等),都会作一次假设,即认为这个Marker会影响这个表型。这是典型的多重假设检验问题,所以需要对假阳性率进行控制。
由此在多重假设检验中提出了FDR,即错误发现率。对多重假设检验中的错误发现率的控制方法很多,在GWAS分析中,运用得最广泛的就是Bonferroni校正了,其原理是将原显著性水平(α)校正为α/M,M为检验的次数,在GWAS分析中为Marker数。
但是Bonferroni校正的前提是每次试验都是独立的。而在GWAS分析中,由于Marker之间存在连锁不平衡(LD),所以不符合Bonferroni校正的前提。在早期的GWAS研究中,由于技术水平限制,Marker数比较少,Marker在基因组中的物理距离一般比较远,LD水平不是很高,所以用Bonferroni校正也是可取的。但随着高通量测序技术的发展,开发的SNP标记密度非常高,由于SNP之间的强连锁,使得Bonferroni校正变得过于保守。
下图来源于一个真实GWAS项目,即Q-Q图。在GWAS分析中,我们用Q-Q图来检验模型的可靠性。纵坐标为观测值(-log10P),横坐标为期望值。理想模型中,观测值和期望值是相等的,只有在右上角有一些点,是观测值大于期望值(与表型关联的标记)。但在我们的项目中,发现观测值整体是小于期望值的(下图右),所以我们怀疑是Bonferroni校正引起的。于是,我们按照基因组平均的LD-decay水平,划窗口选择了部分标记来作Q-Q图(下图左),发现观测值基本等于期望值,这证实了我们的猜测。
