原文地址:NCBI中的fasta格式及其常用格式
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
| *.asn = ASN. file, *.faa = FASTA Amino Acid file *.ffn = FASTA nucleotide coding regions file其内容是物种内所有基因的DNA序列信息,fasta格式 *.fna = FASTA Nucleic Acid file其内容是使用fasta格式表示的物种全序列DNA信息 *.gbk = GenBank flat file format,GenBank格式的物种详细注释信息,包括相关物种的名称,访问号,参考文献信息,以及该物种的对应的基因和非基因片段的详细注释 |
