新浪博客

[转载]SOAPaligner/SOAP2的安装与使用

2018-02-03 09:42阅读:
原文作者:Bio-Info

介绍

SOAPaligner/soap2是SOAP(Short Oligonuclotide Analysis package)的一个主要成员, 它是SOAP 的一个升级版本, 新的程序的特征提高了运行速度和对Illumina/Solexa GenomeAnalyzer的大数据量的比对的精确度.与死soap 版本1进行比较,远远提高了运行速度,只需要2 分钟就可以实现人类基因组参考序列的1M读长的比对, 另一个soap2的改进是可以同时支持不同长度的读长。
SOAPaligner通过在数据结构和算法上的优化而实现时间和空间上的高度有效性。他的核心算法和索引的数据结构(2way-BWT)是由香港大学的计算科学算法研究组实现的(T.W.Lam, Alan Tam, Simon Wong, Edward Wu and S.M. Yiu)

系统要求

硬件:
a) 64-bit 带SSE设备的 x86-64 CPU
b) 8GB的主要内存(以人类基因组为例)
c) 8 Gb的硬盘(以人类基因组为例)
软件:

a) 64-bit linux 系统(内核>=2.6)


下载
注意:由于一部分源代码的版权问题,在当前版本中,我们不能公开SOAPaligmer/soap2的源代码。如果你想要用使用系统平台的SOAPaligner/soap2, 请积极的和我们联系, 需要说明你的CPU构架和OS 内核的版本。因为数据结构是不兼容32位系统, 我们不能提供与之相关的版本。


下载版本
[转载]SOAPaligner/SOAP2的安装与使用 [转载]SOAPaligner/SOAP2的安装与使用




下载链接: http://soap.genomics.org.cn/down/soap2.21release.tar.gz


SOAP2的安装
1.从上述链接中下载SOAP2软件包,然后通过WinSCP上传到服务器;
2.在linux下,对软件包(soap2.21release.tar.gz)进行解压,解压分两步完成:
$ gunzip soap2.21release.tar.gz #解压后为soap2.21release.tar
$ tar -xvf soap2.21release.tar #解压后生成的文件有两个soap2.21release soap2.21release.tar其中,soap2.21release即为目的文件。(注:release软件包即为解压后可以直接使用的软件包)
查看soap2.21release,其文件夹下有这样几个程序:
2bwt-builder NOTE release soap soap.1 soap.man #其中,有两个(2bwt-builder soap)为可执行文件
2bwt-builder为SOAP前建立索引文件的工具;
soap为SOAP2比对工具。
3.(可选)为了后续应用的方便,对文件夹soap2.21release进行了更名
$ mv soap2.21release SOAP2


SOAP2的使用

1.在使用SOAP2之前,需要对参考基因组建立索引(以人的参考基因组hg19为例)
格式: /2bwt-builder
eg: ./2bwt-builder ~/human_genome.fa

实例: $ /leofs/noncode/xcl/SOAP2/2bwt-builder /leofs/noncode/xcl/References/Human/hg19/hg19.fa
将会生成13个不同的索引文件,这些索引文件的前缀为hg19.fa.index,后缀分别为*.amb, *.ann, *.bwt, *.fmv, *.hot, *.lkt, *.pac, *.rev.bwt, *.rev.fmv, *.rev.lkt, *.rev.pac, *.sa, *.sai.
也即生成hg19.fa.index.*的一系列索引文件。
2.序列比对(以双端测序为例,单端测序见SOAP官网上的说明)
单端测序reads序列比对格式: ./soap –a -D -o
双端测序reads序列比对格式: ./soap –a -b -D -o -2 -m -x insert_size>
注意:对于-D参数,程序仅接受上面所述的索引文件前缀,即hg19.fa.index
实例: $ /leofs/noncode/xcl/SOAP2/soap -a ERR188040_1.fastq -b ERR188040_2.fastq -D /leofs/noncode/xcl/References/Human/hg19/hg19.fa.index -o PE_output -2 SE_output
3.参数:
-D STR Prefix name for reference index [*.index].
-a STR Query file, for SE reads alignment or one end of PE reads
-b STR Query b file, one end of PE reads
-o STR Output file for alignment results
-2 STR Output file contains mapped but unpaired reads when do PE alignment
-u STR Output file for unmapped reads, [none]
-m INT Minimal insert size INT allowed for PE, [400]
-x INT Maximal insert size INT allowed for PE, [600]
-n INT Filter low quality reads contain more INT bp Ns, [5]
-t Output reads id instead reads name, [none]
-r INT How to report repeat hits, 0=none; 1=random one; 2=all, [1]
-R RF alignment for long insert size(>= 2k bps) PE data, [none] FR alignment
-l INT For long reads with high error rate at 3'-end, those
can't align whole length, then first align 5' INT bp
subsequence as a seed, [256] use whole length of the read
-v INT Totally allowed mismatches in one read, [2]
-M INT Match mode for each read or the seed part of read, which
shouldn't contain more than 2 mismaches, [4]
0: exact match only
1: 1 mismatch match only
2: 2 mismatch match only
3: [gap] (coming soon)
4: find the best hits
-p INT Multithreads, n threads, [1]


SOAP2比对结果的说明

输出文件格式说明
82 TTTTCGTATGGTAAAGCCTTGGCCATTTTTGGAGCGTTTTTGGC abbbaaabbba`]aaabaaa^^a_`a`b^aZUD[aZ_^``[YO 72 a 44 + LG_2 6082510 1 C->33G4 44M 33C10
格式说明(从左到右)
1. 编号: read 的编号。
2. read的序列.如果read比对上参考序列的负链,会被反向互补为正链。
3. 质量值:序列的质量值,和序列顺序一致,如果read反向互补,质量值也会随着改变。
4. 比对上的次数: 最优比对的次数。没有比对上的read将被忽略。
5. a/b:pair-end比对的标记, 表示read属于来自哪个文件
6. 长度: read长度,如果是容缺失的比对,长度将是加上缺失片断的长度。
7. +/-: 比对上参考序列的正链或负链
8. 染色体名称:参考序列的染色体名称
9. 位点:第一个碱基在染色体上的位置,从1开始
10. 错配的个数
11. 错配的详细信息('C->33G4' 意思是一个错配,在参考序列的位置是第9列+33(从0开始),在参考序列上是C,read上是G,质量值是4。)
12. 比对上的数目 ('44M' 意思是44个碱基比对上了)
13. 对比的细节 ('33C10'意思是前33个比对上了,第34(参考序列上是第九列+34)个是错配,后面10个还是比对上了)

我的更多文章

下载客户端阅读体验更佳

APP专享