NCBI术语系列之四：Unigene （网文整理）

2011-12-28 11:12阅读：

http://blog.sina.cn/dpool/blog/u/1779824857

Unigene

UniGene是一个正在实验中的系统，它自动地将GeneBank中的序列聚类为面向基因的非冗余的数据集。每一个UniGene簇由所有代表这一唯一的基因的序列以及相关的描述组成，这些描述包括表达的组织类型，以及在基因组中的定位信息。另外，成千上万的新发现的EST也被包括进来，因此，UniGene可以用来发现新的基因。同时UniGene也被用来作为基因定位时试剂选择的来源和大规模表达研究的参考。
在绝大多数的生物中，转录序列的数目要大大超过基因的数目。从计算的角度考虑，这是一个聚类问题，此时，序列就是要聚类的顶点。一个cDNA要想进入UniGene，就必须至少有100个碱基质量很高并且不是重复的。然而需要注意的是，自动序列聚类的方法仍在不断地改进中，所以随着时间的变化，聚类的结果也不是一成不变的，它会随着方法的改进而改进。
有一点应当注意，在UniGene建立的时候并不是有试图将其建

立成为一个有连续的重叠群的意图。至于为什么一个基因簇里的序列并不能连接成一个完整的序列，里面的原因有许多。例如，一个基因的所有不同的拼接变异体都被放入到一个基因簇中，这样当然不可能连接成单一的基因序列了。而且，包含EST的序列常常包含有同一个cDNA的5'或3'端的读码序列，而这些序列之间并不总是重叠的。
对于一组给定的序列，有数种不同来源的信息可以用来判断这组给定序列中的任意一对序列是否源自于同一个基因。最明显的证据是它们有重叠区域，而且它们有一个近于完美的比对结果。现在出现的一个两难问题是：由于EST中存在碱基替代错误，因此应该接受某种程度的碱基不匹配，然而对碱基不匹配过高的容忍又会把旁系同源的基因聚到一个基因簇中。一种改良结果的方法是要求比较的序列具有“鸠层榫”形的关系，即是要求要比对的序列尽量地分隔开。通过计算精心选择的数据集的阳性和阴性之间的联系来确定可以接受的比对得分值。值得注意的是，在聚类的结果中一个基因可能包含多于一种的拼接形式。
一个常见的现象是一个基因的多个片段之间并不重合。当这个基因的全部序列测定之间发现这些片段其实是属于同一个基因。为了使多个聚类集合最后合并为一个基因的事情发生的可能性降到最小，UniGene要求在一个UniGene簇中至少要包含一个含有证明能到达3'末端的序列。换句话说，一个UniGene基因簇被锚定在一个转录单位的3'端。这个证据可以是标准的多聚腺苷酸信号，也可以是有一个polyA的尾部或是至少有两个EST能够被证明是用3'端的测序引物得到的。由于基因簇并不具备这样的证据（一个典型的例子是这个基因簇中只含有一个EST），因此，并不是所有未被污染的dbEST中的序列都会出现在UniGene中。当然，可变剪切的3'端外显子只有当包含它的EST序列被提交到数据库之后才会被聚类，在此之前，它一直作为一个单独的基因簇存在。
目前，UniGene中包括人类，大鼠，小鼠，奶牛，斑马鱼，爪蟾，果蝇和蚊子等动物数据还有小麦，水稻，大麦，玉米，水芹等植物的数据。选择这些物种的原因是因为这些物种已有大量的EST数据，并且具有代表性，将来还会添加新的物种的数据。

举报/Report

我的更多文章

下载客户端阅读体验更佳