新浪博客

生物信息学分析流程

2013-07-29 15:44阅读:
SNP分析流程
1、llumina HiSeq 2000获取原始短序列;
2、去除测序数据中的接头和低质量数据等;
3、把短序列用SOAPaligner软件定位到人类基因组数据相应的位置上,所用到参数:soap2.20 -a -b -t -v 3 -l 42 -s 63 -m 100 -x 400,其中序列错配数为3,具体参数含义请参考:http://soap.genomics.org.cn/soapaligner.html;
4、统计测序结果信息,短序列数量、目标区域覆盖大小、平均测序深度等;
5、 SOAPsnp用于在目标区域找出位点的基因型,所用到参数:soapsnp -i -d -o -r 0.00005 -e 0.0001 -M -t -u -L -s -2 –T,具体参数含义请参考:http://soap.genomics.org.cn/soapsnp.html;
6、过滤低质量值(质量值>=20)和低覆盖度(深度>=10)的SNP;
7、利用CCDS、人类基因组数据库(NCBI 36.3)、dbSNP(v130)信息对SNP进行注释,确定突变位点发生的基因、坐标、mRNA位点、氨基酸改变、SNP功能(错义突变/无义突变/可变剪切位点)、SIFT预测SNP影响蛋白功能预测等;
8、根据疾病样品和正常样品信息,选出疾病样品所共有的而在正常组中不存在的SNP作为候选的SNPs,在候选的SNPs中去除掉在dbSNP、HAPMAP、1000人类基因组、其他外显子测序项目中出现的SNP。同时,过滤掉SIFT预测对蛋白功能无影响的SNPs作为最后疾病相关的候选SNPs;

InDel分析流程
1、把去除接头序列和低质量的测序数据用Burrows-Wheeler Aligner (BWA)比对到人类基因组上,所以到参数:bwa aln -L -l 31 -i 10 -k 2 -t 7 -e 40,具体参数含义请参考:http://bio-bwa.sourceforge.net/bwa.shtml;
2、用GATK软件找出序列中所含有的插入/缺失(InDel)的信息;
3、利用CCDS、人类基因组数据库(NCBI 36.3)、db
SNP(v130)信息对InDel进行注释,确定突变位点发生的基因、坐标、mRNA位点、编码区域序列的改变、对氨基酸的影响、InDel功能(氨基酸插入/氨基酸缺失/移码突变);
4、根据疾病样品和正常样品信息,选出疾病样品所共有的而在正常组中不存在的InDel作为候选的InDels,在候选的InDels中去除掉在dbSNP、其他外显子测序项目中出现的InDel,最后筛选出疾病相关的候选InDels.

我的更多文章

下载客户端阅读体验更佳

APP专享