GeneBasedAssociation(GBA)分析
2020-08-27 08:33阅读:
Gene-Based Association (GBA)
analysis是基于全基因组关联分析的一种目前GWAS可以分为基于突变(SNP,CNV,SV),基因和通路三种。其中基于突变的主要是单核苷酸多态(SNP),目前,可以使用的软件比较多,比如TASSEL,GAPIT,PLINK等。从近几年发的文章来看,和人相关的GWAS分析一般都是使用PLINK,而动植物的除了TASSEL,GAPIT外,还有EMMAX,GEMMA,FastLMM等。支持gene-based关联分析研究的工具相对来说偏少,本人翻了google后发现有两个软件比较适用,分别是GCTA和VEGAS2,具体使用方法如下:
1、GCTA
参考资料:https://gcta.freeforums.net/board/2/gcta-user-manual
下载地址:https://cnsgenomics.com/software/gcta/#Download
第一步:数据格式转换
plink --allow-extra-chr --vcf test.vcf --make-bed --out test
plink --file test --make-bed --out test --recode
--allow-extra-chr
第二步:fastBAT
gcta64 --bfile test --maf 0.05 --fastBAT assoc.txt
--fastBAT-gene-list gene_list.txt --out test --thread-num 10
其中:
(1)assoc.txt:
1:86387 0.3104987944
1:87344 0.3436231153
1:87365 0.6292260311
1:90561 0.592716495
注意:只需要两列:SNP的名字和p值
(2)gene_list.txt
1 20297 25531
GHMM2H.1
1 45161
49579 4ER605.1
1 56331 60797
P7L3Q8.1
注意:需要四列:染色体,起始点,终止点,基因名
(3)结果如下:
Gene Chr Start End
No.SNPs SNP_start SNP_end
Chisq(Obs) Pvalue TopSNP.Pvalue
TopSNP
4ER605.1 1
45161 49579 8 1:86387
1:98295 2.89752 0.795806 0.162649
1:98295
P7L3Q8.1 1
56331 60797 10 1:86387
1:102614 6.18714 0.636038
0.069961
1:102614
S4TQX4.1 1
81574 84339 14 1:86387
1:133610 7.132 0.722129
0.069961
1:102614
格式说明:
Gene: gene ID
Chr: chromosome
Start and End: left and right side boundaries of the gene
region
No.SNPs: number of SNPs in the gene region
SNP_start and SNP_end: the SNP at the left and right side boundary
of the gene region
Chisq(Obs): sum of chi-squared test-statstics of all SNPs in the
gene region
Pvalue: gene-based test p-value
TopSNP.Pvalue: smallest single-SNP GWAS p-value in the gene
region
TopSNP: the top associated GWAS SNP
一般用第六列用来画曼哈顿图和QQ图。
2.VEGAS2
可以参考说明文档:https://vegas2.qimrberghofer.edu.au/vegas2version2.tutorial.pdf
一、下载软件:https://vegas2.qimrberghofer.edu.au/
下载完需要注释的是,此软件是一个perl程序,是基于人的数据开发的,所以需要修改染色体的数目以及给的genelist格式
一定要安装这两个R包:mvtnormcorpcor,安装方法如下:
install.packages('mvtnorm')
install.packages('corpcor')
二、运行
perl VEGAS2.pl -G -snpandp example.assoc.txt -custom example -glist
example.glist >log
(1)-G是基于基因分析,还有一个-P是基于通路的
(2)assoc.txt:
1:86387 0.3104987944
1:87344 0.3436231153
1:87365 0.6292260311
1:90561 0.592716495
注意:只需要两列:SNP的名字和p值
(3)example.glist
1 20297 25531
GHMM2H.1
1 45161 49579
4ER605.1
1 56331 60797
P7L3Q8.1
注意:需要四列:染色体,起始点,终止点,基因名
(4)-custom example
其实这个参数这么设置是错误的,正确的方法是需要加上全路径,不然一直报错。
(5)结果
Chr Gene nSNPs nSims Start Stop Test Pvalue Best-SNP
SNP-pvalue
'1' 'A84CEX.1' 2 1000 129459 130401 0.632863589375642
0.701298701298701 '1:129882' 0.4512008062
'1' 'RD8VGU.1' 2 1000 146714 148525 2.25591281185586
0.30969030969031 '1:147505' 0.1626487431
'1' 'BS5BMY.1' 3 1e+05 168597 174084 11.2937763664304
0.029719702802972 '1:173571' 0.01805486746
'1' 'GF7VCN.1' 1 1000 299055 299742 0.626075766930382
0.415584415584416 '1:299729' 0.4287984127
'1' 'AEW45S.1' 3 1000 521051 526822 3.3527348675928
0.321678321678322 '1:526194' 0.1046196209
一般用第八列用来画曼哈顿图和QQ图。
值得注意:
(1)运行速度:
fastBAT :运行比较快,消耗资源比较少;
VEGAS2:运行速度很慢,消耗资源比较多;
(2)局限性
两个软件都是基于人的数据开发的所以在运行的时候需要特别注意染色体的数量。