新浪博客

本地blast转录组结果建数据库,亲测~

2017-01-05 11:50阅读:
一、blast的下载与安装
1.程序下载:访问blast本地软件包链接 blast_latest 下载适合自己系统的blast版本,这里我选择 ncbi-blast-2.2.31+-win32.exe
2.安装流程:下载完毕后,建议安装到E:\Blast,生成bin和doc两个子目录,其中bin是程序目录, doc是文档目录,这样就安装完成。创建一个“db”文件夹
3.用户环境变量设置:右键点击“我的电脑”-属性,然后“高级系统设置”选项-“环境变量”,在用户变量下方点击“新建”-变量名:BLASTDB,变量值:E:\blast\db(即数据库路径)。然后在用户变量下方新建“Path”,变量名“E:\blast\bin”,或者在系统变量下方“Path”添加变量值“E:\blast\bin;”(这里保留原来的变量值,在前面添加)。改变环境变量,是让这个路径在默认工作环境中,可以不设置,以后指定文件夹输入命令也是可以的。
4.测试:点击window的'开始'菜单,在运行中输入cmd调出MS-DOS命令行,“e:”,即可转到E盘,“cd blast”即可转到blast文件夹,输入命令“ blastn -version'即可查看版本。更改过环境变量,可直接在c:下输入。可能出现的情况:1.缺失msvcp120.dll,在网上另外下载按操作即可。2.无法运行程序,可能是下载的版本不对,小白我的电脑是64位,但是32位才能用。
二、blast本地数据库的构建
1.数据的获取
1.1 直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名)。
1.2 从NCBI中的ftp库下载所需要的某一个库或几个库(其链接为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。
1.3 利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。
上述三种方法各有优缺点:前两种下载速度较快,但是检索前都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是是NCBI中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。
2.数据的格式化
这里以转录组数据结果All-Unigene(FA文件)作为数据库文件为例。首先将All-Unigene放到E:\blast\db文件夹下,然后调出MS-DOS命令行,转到E:\blast\db文件夹下运行格式化命令。
格式化All-Unigene命令:
E:\blast\db>makeblastdb.exe -in All-Unigene.fa -pares_seqids -hash index -dbtype nucl

-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index 两个参数一般都带上,主要是
为blastdbcmd取子序列时使用,-dbtype 后接所格式化的序列的类型,核酸用 nucl,蛋白质用prot 其他博文里介绍用fasta格式,后缀名则为.fasta

运行结果:

Building a new DB, current time:~
New DB name: T
New DB title: nr
Sequence type: ~

Keep Linkouts: T
Keep MBits: T
Maximum file size: 1000000000B
Adding sequences from FASTA; added ~ sequences in~seconds.
因此,本地数据库已经建立完毕。
三、blast的使用方法
以ppo.fasta作为查询序列,将序列fasta文件放在blast文件夹中,多条序列则放在一个文档里面
blsat运行命令:
E:\blast>blastp.exe -task blastn -query ppo.fasta -db All-Unigene.fa -out text.txt

blastn.exe 程序执行命令,这里比的核酸; -task 后面选择你所要用的程序,blastn,blatp,tblastx 等; -query 后接查询序列的文件名称; -db 后接格式化好的数据库名称;
-out 后接要输出的文件名称及格式。

如果一切运行良好的话,待运行完毕,你将在blast文件下看到一个text.txt的结果。很快的~

我的更多文章

下载客户端阅读体验更佳

APP专享