[转载]NCBI中的fasta格式及其常用格式

2017-10-05 14:47阅读：

http://blog.sina.cn/dpool/blog/u/6080877267

原文作者：宁生信

作为最简单的格式，一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA（或Pearson格式）文件表示的核苷酸序列数据
Fasta格式首先以大于号“>”开头，接着是序列的标识符gi号，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。

*.asn = ASN. file,
*.faa = FASTA Amino Acid file 其内容是物种内所有基因对应的fasta格式的蛋白质序列信息
*.ffn = FASTA nucleotide coding regions file其内容是物种内所有基因的DNA序列信息，fasta格式
*.fna = FASTA Nucleic Acid file其内容是使用fasta格式表示的物种全序列DNA信息
*.gbk = GenBank flat file format，GenBank格式的物种详细注释信息，包括相关物种的名称，访问号，参考文献信息，以及该物种的对应的基因和非基因片段的详细注释

新浪博客

[转载]NCBI中的fasta格式及其常用格式

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼