新浪博客

每日一生信——excel计算统计结果的FDR值

2016-03-07 22:28阅读:
在一般情况下,可以认为 FDR = Q value = adjusted p value。在所有从p value 估算 Q value的公式中,Benjaminiand Hochberg 的方法(简称BH法)是使用最广泛的。
p value 估算Q value,使用 R语言的 p.adjusted 命令就可以轻松完成。如果对于R语言不熟悉的老师,其实也可以使用excel软件完成。


今天,就给大家介绍使用excel 计算 Q value的方法
首先,大家要了解一下 BH的计算公式:
BH法的计算公式是:
Q value = p *(m/k)
其中,m是检验的次数,k是这次检验的p value在所有检验中的排名。

例如,我们对10000个基因进行表达差异分析。那么每个基因都会得到一个p value。现在,我要估算每个基因对应的Q value,就可以用以上公式计算。由于检验次数是10000次,理论上m=10000。然后将所有基因的p value从小到到大排序,确定每个基因对应的k值。如果一个基因对应的p value在10000个基因中排名第一,那么这个基因对应的k=1。如果一个基因对应的p value在 10000个基因中排名第100,那么这个基因对应的k=100。
下面,就给大家演示使用excel 计算Q value。
1. 打开一个表达差异分析结果的excel文件
这个文件一共有10000个基因的检验结果,1个基因1行,第I列是每个基因对应的P值。
每日一生信——excel计算统计结果的FDR值
2. 过滤检验失败的基因
由于某些原因,例如一个基因没有表达或表达量过低,无法进行显著检验。那么这个基因就不该被计入有效的检验。我们需要先将这样的基因排除。在我们的数据中,无法检验的位点被标注为NA。
在excel 中,点选“排序和筛选”→ “筛选”。然后选择“pvalue”这列。然后我们可以将结果是NA的行挑选出来,并将他们剔除。记住:是删除,因为在后续分析中它们没有什么用了。如果保留会影响我们后续的排序。
删除后还剩下 7276个基因。那么m值=7276。
每日一生信——excel计算统计结果的FDR值
3. 对p值排序,确定每个基因的k值
a. 点击 Pvalue这列,点击“全选”,并选择“升序”,那么基因将以p值从小到大排序;
每日一生信——excel计算统计结果的FDR值
b. 新建列,填写每个基因的k值。
在Pvalue之后的一列(J列),填写表头名称“K”,并在下面一行填写1;(因为这个基因p值最小,k=1
每日一生信——excel计算统计结果的FDR值
将鼠标移动到表格红框中的表格的右下角,鼠标指针会变为“+”。按住键盘“ctrl”键,并按下鼠标左键不放(注意,别松开),然后沿着这一列往下拉拽。这步骤的目的是给这一列所有行填上k值。Excel会按照递增的原则给后续的行赋予k值。(这就是excel自动递增填数字的方法
拉拽会花费一些时间。一口气拉到表格的最后一行,才可以松开鼠标左键。但最后的效果如下。每个基因按照显著性排名,会被赋予一个k值。
每日一生信——excel计算统计结果的FDR值
4. 计算Q值
在“K”值后一列,在表头填写:“Qvalue”,然后这一列的第一个基因(k=1)这一行,填写Qvalue的计算公式,如下图红框中的内容。计算公式是:=I2*7276/J2。
其中: I2代表I列第二行,就是这个基因的p value,7276是m值,就是完成有效检验的基因数(检验次数);J2代表J列第二行,就是这个基因的K值。
计算出来这个基因的Q value是 3.89E-02。
每日一生信——excel计算统计结果的FDR值
然后,我们需要将利用这个公式将每个基因的Qvalue计算出来。很简单,你只需要将这个公式填写 7276遍。预计1个通宵可以填完(不是吧……)。
当然,just a joke(我就知道没那么坑~).还有一种1秒钟搞定的方法。Excel也有模仿上一行的公式,自动填写后续行的功能。
将鼠标移动到第一个基因的Qvalue值对应的方框(红框内)的右下角,指针再次变为“+”。
每日一生信——excel计算统计结果的FDR值
然后按住键盘Ctrl键,鼠标左键双击这个表框的右下角,excel按照这个方框的计算公式,自动将这一列后续所有的行填满。效果如下:
每日一生信——excel计算统计结果的FDR值
5. 挑选显著的基因
然后筛选差异基因。我按照Q value< 0.1为阈值筛选(Q value阈值的选取,在我们的QQ在线课堂刚刚介绍过)。在这份数据中,差异基因的数量就是171个。
每日一生信——excel计算统计结果的FDR值
好了,今天使用excel计算Q value的教程就介绍到这里,其实我们介绍了两点内容:
  1. BH公式的逻辑;
  2. Excel的使用。

这个方法简单方便,可以用在任何需要多重检验校正的地方。例如:基因表达差异分析、功能富集分析、检测多个酶活指标等等。

我的更多文章

下载客户端阅读体验更佳

APP专享