新浪博客

GTF格式的refGene如何在Ensembl及UCSC下载

2014-10-15 00:33阅读:

[转载]GTF格式的refGene如何在Ensembl及UCSC下载

已有 1811 次阅读 2013-8-18 00:46 |系统分类:科研笔记|关键词:如何
GTF格式的refGene如何在Ensembl及UCSC下载
1. 从UCSC genome browser中下载GTF格式的refGene, 方法如下:
1) 进入http://genome.ucsc.edu/
2) clade选Mammal, genome选Human, assembly选择相应参考序列版本; group选mRNA and EST Tracks, track中选Human mRNAs; table选RefSeq Genes (refGene); output format选GTF-gene transfer format
3) output file输入文件名, refGene.gtf.gz
4) 点击get output
2. Ensembl GTF文件路径
在linux环境下直接通过ftp下载即可.
作为Tophat输入之前, 还需要进行如下处理:
gzip -dc Homo_sapiens.GRCh37.68.gtf.gz | awk '{
if ($1=='MT') {
sub(/^MT/, 'chrM', $1)
} else if (!match($1, '^G|^H')) {
sub(/^/, 'chr', $0)
}
print
}' >Homo_sapiens.GRCh37.68.cufflinks.gtf
Homo_sapiens.GRCh37.68.gtf.gz是直接从Ensembl的FTP上下载的.
3. 从UCSC下载Chromosome band文件
1) http://genome.ucsc.edu/cgi-bin/hgTables?command=start
2) 在group中选择Mapping and Sequencing Tracks, 再在track中选择Chromosome Band;
3) 点击get output即可.


我的更多文章

下载客户端阅读体验更佳

APP专享