新浪博客

[转载]NCBI中的fasta格式及其常用格式

2017-10-05 14:47阅读:
原文作者:宁生信

作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据
Fasta格式首先以大于号“>”开头,接着是序列的标识符gi号,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。

*.asn = ASN. file,
*.faa = FASTA Amino Acid file 其内容是物种内所有基因对应的fasta格式的蛋白质序列信息
*.ffn = FASTA nucleotide coding regions file其内容是物种内所有基因的DNA序列信息,fasta格式
*.fna = FASTA Nucleic Acid file其内容是使用fasta格式表示的物种全序列DNA信息
*.gbk = GenBank flat file format,GenBank格式的物种详细注释信息,包括相关物种的名称,访问号,参考文献信息,以及该物种的对应的基因和非基因片段的详细注释
等信息。
*.gbs = GenBank summary file format (CONTIG),,GenBank总结文件格式。
*.ptt = Protein Table,其内容是所有能翻译成蛋白质的基因的简单注释信息
*.tab = Table to assemble genome,tabular格式的文件
*.val = ASN.1 binary format,除*.val是个二进制文件,其他都是文本文件,相当于*.txt文件!
*.tar.Z = unix tar and compressed files (not all files are compressed),linux下的压缩文件。

我的更多文章

下载客户端阅读体验更佳

APP专享