Unigene
UniGene是一个正在实验中的系统,它自动地将GeneBank中的序列聚类为面向基因的非冗余的数据集。每一个UniGene簇由所有代表这一唯一的基因的序列以及相关的描述组成,这些描述包括表达的组织类型,以及在基因组中的定位信息。另外,成千上万的新发现的EST也被包括进来,因此,UniGene可以用来发现新的基因。同时UniGene也被用来作为基因定位时试剂选择的来源和大规模表达研究的参考。
在绝大多数的生物中,转录序列的数目要大大超过基因的数目。从计算的角度考虑,这是一个聚类问题,此时,序列就是要聚类的顶点。一个cDNA要想进入UniGene,就必须至少有100个碱基质量很高并且不是重复的。然而需要注意的是,自动序列聚类的方法仍在不断地改进中,所以随着时间的变化,聚类的结果也不是一成不变的,它会随着方法的改进而改进。
有一点应当注意,在UniGene建立的时候并不是有试图将其建
UniGene是一个正在实验中的系统,它自动地将GeneBank中的序列聚类为面向基因的非冗余的数据集。每一个UniGene簇由所有代表这一唯一的基因的序列以及相关的描述组成,这些描述包括表达的组织类型,以及在基因组中的定位信息。另外,成千上万的新发现的EST也被包括进来,因此,UniGene可以用来发现新的基因。同时UniGene也被用来作为基因定位时试剂选择的来源和大规模表达研究的参考。
在绝大多数的生物中,转录序列的数目要大大超过基因的数目。从计算的角度考虑,这是一个聚类问题,此时,序列就是要聚类的顶点。一个cDNA要想进入UniGene,就必须至少有100个碱基质量很高并且不是重复的。然而需要注意的是,自动序列聚类的方法仍在不断地改进中,所以随着时间的变化,聚类的结果也不是一成不变的,它会随着方法的改进而改进。
有一点应当注意,在UniGene建立的时候并不是有试图将其建
