新浪博客

转载:批量下载序列方法

2011-12-12 11:24阅读:
Categorized | 生物信息学
Tags | GenBank, NCBI, 下载序列, 生物信息软件如何在NCBI批量下载GenBank序列
GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。
批量下载前须知
批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);
1,用NCBI提供的FTP下载
NCBI的FTP地址是:ftp.ncbi.nih.gov。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi.nih.gov/genbank/README.genbank
如果要下载现在的Blast库,打开blast目录。
如果要下载基因组序列,进入genomes目录。
全部的目录:
ncftp / > ls
1000genomes/ dbgap/ genomes/ pubchem/ repository/
sra0/
asn1-converters@ entrez/ hapmap/ pubmed/ sequin/ sra1/
blast/ fa2htgs/ mmdb/ ramdisk/ sky-cgh/ tech-reports/
cgap/ genbank/ ncbi-asn1/ README.ftp snp/ toolbox/
cn3d/ gene/ pub/ RefSeq/ sra/ tpa/2,用NCBI的工具Batch Entrez批量下载序列
Batch Entrez网址:http://www.ncbi.nlm.nih.gov/sites/batchentrez
用这个工具,要求你有一个文件,里面是一个列表,可以是Accession Number,Gi Number,或是NCBI里其它数据库的各种标识符。文件的格式看例子:example.txt
3,用柳城博客提供的批量下载序列的工具
中文Entrez序列查询工具:http://www.liucheng.name/entrez/
这个工具单个序列的下载也是没问题的。里面也有详情的说明了。这里不再解释。
还有其它的方法??请留言。!
本文详细出处参考:http://liucheng.name/942/

我的更多文章

下载客户端阅读体验更佳

APP专享