生物信息学引论——目前生物信息学主要研究内容
2013-10-09 21:39阅读:
作者:孙啸先生
生物信息学作为一门新的交叉学科,以基因组DNA序列信息分析作为出发点,分析基因组结构,寻找新基因,分析基因调控信息,在此基础上研究基因的产物,即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于受体结构的药物分子设计和蛋白质分子改性设计提供依据。当前,生物信息学已在理论生物学领域占有了核心的地位。生物信息学主要有以下几个方面的研究内容。
1、 生物分子数据的收集与管理
核酸的序列测定是分子生物学的一大突破,并取得了极大的进展,目前已测定的核酸序列的数量呈指数级增长。根据人类基因组计划进展情况,到2003年将得到人类的30亿个碱基对,其他种属基因组的DNA全序列测定也在积极地进行。在蛋白质方面,目前已知约24万个蛋白质的序列,其中7万多个序列是实验测得的结果,而其它序列则是从核酸序列根据遗传密码推导出来的。通过X射线衍射或核磁共振方法测定的蛋白质空间结构约有7500个。
生物分子数据量巨大,特别是核酸序列数据以千兆(giga)记。有组织地搜集和管理这些数据是各项工作的前提。为了便于其他研究人员共享这些数据,及时取得最新的实验结果,也为保证数据的一致性、可靠性和完整性,国际上有专门的机构搜集和管理这些数据。具体的工作包括构建数据库系统,建立网络服务器,开发数据查询和搜索工具,设计数据分析软件和数据可视化软件。对生物分子数据管理的一个特别要求是交叉索引,即数据库中的每一条数据应尽可能地与其它数据库中的相关数据连接起来。如从核酸数据库中的某段DNA序列到蛋白质序列数据库对应蛋白质序列的连接,从蛋白质序列数据库到蛋白质结构数据库的连接,前者实际上说明了基因和其产物之间的联系,而后者反应蛋白质序列和结构之间的映射关系。
生物信息学发展很快,各种数据库不断涌现,数据库各有不同的特色。美国、日本、欧盟、加拿大等国都有基因组数据库,有的是国际性的,有的是本国的,有的公开,有的不公开。对于核酸序列,有三个权威组织在管理各自的数据库,一个是欧洲分子生物学实验室的EMBL,一个是美国生物技术信息中心的GenBank,另一个是日本遗传研究所的DDBJ。三个组织相互合作,各数据库中的数据完全一致,对于特定的查询,三个数据库的返回结果基本一样。数据库中的数据
来源于众多的研究机构和基因测序小组,来源于科学文献。著名的蛋白质序列数据库是美国生物医学基金会建立的PIR及瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的SWISS-PROT,而著名的蛋白质结构数据库是美国Brookhaven实验室的大分子数据库PDB。各种数据库可借助于CD-ROM发布,也可以通过Internet网络查询。
数据库的内容十分丰富,除上述DNA序列、蛋白质序列和结构数据库之外,还有表达序列标记数据库(dbEST),序列标记位点数据库(dbSTS),蛋白质序列功能位点数据库、基因图谱数据库等一些具有特殊功能的数据库(郝柏林等,2000)。
2、 数据库搜索及序列比较
对于许多新得到的序列,我们并不知道其相应的生物功能。生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。搜索同源序列在一定程度上就是通过序列比较寻找相似序列。在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。所以当研究序列的相似性时,我们最终希望根据这个普遍规律推测新序列相应的结构或功能,也就是发现新的生物分子数据的内涵。这种方法在大多数情况下是成功的,当然也有例外,同时也存在着这样的情况,即两个序列几乎没有相似之处,但分子却折叠成相近的空间形状,并具有相似的生物功能。
对于DNA序列,同源搜索除有助于确定其功能之外,还有助于确定编码区域,确定基因。对于蛋白质,我们希望能够直接从蛋白质序列准确地预测蛋白质的结构和功能。通过序列的比较分析,特别是将一个未知结构、功能的蛋白质序列与已知结构、功能的蛋白质序列进行比较,可以得到一些关于蛋白质结构或功能的有用信息。通过比较不同动物种类的同源序列,还可以得到这些种类从他们共同的祖先进化的信息。可以比较同类序列,也可以比较不同类型的序列,如比较DNA序列与蛋白质序列。当然,在比较之前,需要将不同类型的序列按照一定的规则转换成相同类型的序列,如将DNA序列按三联密码的关系转换为蛋白质序列。
序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述,它反应了在什么部位两个序列相似,在什么部位两个序列存在差别。最优比对反应了两个序列的最大相似程度和最少的不同之处,寻找最优比对的基本算法就是动态规划算法。一个新序列与数据库中的某个序列的比较可以在很短的时间内就可以完成,但由于序列数据库的数据量巨大,逐个与数据库中的每条序列进行比较比较需要很长的时间。因此,对于序列搜索比较算法要求具有较高的速度。目前在序列搜索方面有多种不同的实用程序,但较成功的两个程序是BLAST和FASTA,它们能够根据所给定的目标序列,快速地从DNA序列数据库或蛋白质序列数据库中找出相似序列。它们采取专门的技术以加快搜索速度,如BLAST采用的是局部对比排列技术。现在,这两个程序已被广泛地应用于DNA或蛋白质序列分析。
与序列两两比对不一样,多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。在蛋白质研究方面,除序列数据库搜索之外,还有结构数据库搜索,而通过结构数据库的搜索,常常能发现蛋白质之间更深层的关系。如对于两个序列不相似的蛋白质,通过结构数据库搜索比较,却可能发现这两个蛋白质具有相似的空间结构,因此可以推测这两个蛋白质具有相似的生物功能。
3、 基因组序列分析
目前生物信息学的大量工作是针对基因组DNA序列的(Bishop,1998)。DNA序列是遗传信息的源泉,它对蛋白质的编码是我们所感兴趣的重要内涵。在DNA序列分析方面,识别蛋白质编码区域或识别基因是最关键的(Stormo,1987)。如果发现一个新的基因,就可以通过生物学实验了解与其相关的生理功能或疾病的本质,为疾病防治和新药的开发提供依据。由于存在大量的DNA序列数据,发展识别编码区域和基因的算法也是最大限度利用生物分子数据的要求。另外,从实验和计算的关系来看,在有些情况下,由实验测定的编码区域并不一定完整,必须结合计算找到并证实所有的外显子(exon)。
从编码区域可以推导出基因的结构及其对应的蛋白质序列。就目前分子生物学技术的发展现状而言,实验测定DNA序列要比测定蛋白质序列容易得多,因此可以通过实验测定一段基因的序列,并由此推导蛋白质的氨基酸序列。实际上许多蛋白质序列就是直接从为其编码的DNA序列而获得的。然而要想由DNA序列直接得到蛋白质序列并非易事。首先由于许多蛋白质被编码在DNA序列的不同区域,当给定一段DNA序列,生物学家必须猜测编码区域(即基因)从什么地方开始,到什么地方结束。另外,由于人类基因组所拥有的DNA序列比编码蛋白质所需的多得多,给定的一段DNA序列可能不为任何蛋白质编码。真核基因外显子不连续是基因识别中的一个困难,为解决这个问题,必须首先能够识别基因的剪切位点。
有许多线索可用于帮助寻找基因。若试图发现在DNA序列中哪一部分为蛋白质编码,那么了解多肽可能被编码在哪个阅读框(6种可能的阅读框)中将有助于发现基因。如果某个阅读框对应的一段序列含有许多终止密码子(stop
codon
),则它极少可能成为编码区域。这虽然不能准确地说明蛋白质编码区域从什么地方开始,到什么地方结束,但却可以帮助猜测编码区域位于何处。密码子使用偏性、DNA序列中表示调节信号的特征序列、基因表达过程的特征等,都可用以推测在DNA序列中为蛋白质编码的区域处于什么地方。目前在编码区域识别或基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。较准确的方法是基于统计的方法和人工神经网络方法。神经网络具有非线性映射能力,能够发现数据的高阶相关性。利用现有数据发现基因是比较可靠的方法,例如使用EST数据或已知蛋白质序列数据可以证实基因预测的结果。使用
EST序列信息寻找新基因是当前国际上基因争夺战的热点。将理论识别方法与分子生物学实验结果结合起来,可以在一些特定的情况下较好地解决基因识别问题。
生物信息学方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。
除寻找基因之外,详细分析非编码区域也是非常有意义的,目前主要工作是分析与基因表达调控相关的信息,分析各种功能位点,分析基因转录元件。功能位点是DNA序列上一些特殊的片断,是蛋白质因子作用的位点,是与基因转录、翻译有关的信号序列,包括启动子、起始编码、剪切位点、内含子、外显子等。严格受约束的位点可以被准确定义,对这些位点的识别仅仅是字符串匹配的问题,否则的话,一般采用模式识别方法进行识别。在过去的十几年中已发展了一些方法,这些方法分析和识别与转录、翻译相关的功能位点。一种定量的方法就是利用加权矩阵来表示在位点内每个位置上核苷酸的出现频率,这可用于检测序列的局部特征信号,已有一些将加权矩阵作为查询条件的快速数据库搜索算法。也可通过训练人工神经网络来识别功能位点。如果能够得到这种分析工具,则将比识别编码区域更为有用。对于DNA序列分析研究的最终目的是要全面了解和掌握自然界的遗传语言。
4、基因表达数据的分析与处理
基因表达数据分析是目前生物信息学研究的热点和重点。在以往生物信息学数据分析处理中,一次数据处理的对象往往是单个或几个生物分子,而现在一块基因芯片就可以产生上千个基因的表达数据,数据处理量大幅度增加,数据之间的关系也格外复杂。对基因表达数据,在大规模数据集上进行分析、归纳,可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向(Bassett
et al.,1999)。
目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。所用方法主要有相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络。此外还有主元分析方法,利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征。进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的启动子。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。
最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础上研究基因调控网络的动力学性质。
5、蛋白质结构预测
蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动无不与蛋白质有关。虽然遗传信息的携带者是核酸,但遗传信息的传递和表达不仅是在酶(蛋白质的一类)的催化之下,并且也是在各种蛋白质的调节控制下进行的。因此,分析处理蛋白质数据的重要性并不低于分析DNA序列数据。在分析处理蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗传密码的问题。这是一个更为复杂的问题,因为蛋白质序列和蛋白质空间结构之间的关系比DNA序列与蛋白质序列之间的关系复杂得多。蛋白质的结构由蛋白质序列所决定,这是一种基本认可的假设,但毕竟是一种假设。要证明这一点,就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系或规律。
蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质功能时需要了解蛋白质的空间结构。目前已知蛋白质序列数与已知结构数严重不平衡,蛋白质序列数据库中的数据量大大超过结构数据库中的数据量。虽然蛋白质结构测定方法有所改进,但仍不能满足实际的需要,需要发展理论预测的方法。蛋白质变性及重折叠实验,为从蛋白质的氨基酸序列预测蛋白质的三维空间结构提供了实验基础。直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能关系十分有用,这也将促进蛋白质工程和蛋白质设计的发展。从原理上讲,蛋白质序列隐含了蛋白质折叠后的空间结构,理论上可以从氨基酸序列计算出自然折叠的蛋白质结构。但是由于蛋白质多肽链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象空间,需采用一定的启发式方法寻找自由能最优或接近于最优的构象。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是a螺旋,还是b折叠,或是其它。在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。尽管人们已经建立了许多二级结构的预测方法,但其准确率一般都不超过65%。这很可能是由于所有这些方法只利用序列的局部信息,预测时考虑的局部序列长度一般小于20个氨基酸残基。因为局部序列对二级结构的影响只占65%左右,所以在预测蛋白质二级结构时需要考虑全局信息和进化信息等。预测准确率超过70%的第一个软件是基于神经网络的PHD系统,该系统除使用序列的局部信息外,还使用了序列的进化信息。虽然二级结构预测的准确性有待提高,但其预测结果仍然能提供许多结构信息,尤其是当结构尚未解出时更是如此。
在空间结构预测方面,比较成功的理论方法是同源模型法。该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构。这样,如果一个未知结构的蛋白质序列与另一个已知结构的蛋白质序列足够相似,那么就可以根据后者为前者建立近似的三维结构模型。运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作。得到蛋白质结构以后就可以进一步分析研究蛋白质的生物功能。
从生物分子数据的收集和管理到数据库搜索,从DNA序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子设计和蛋白质设计。本书着重讨论前面一部分内容,药物分子设计和蛋白质设计不在本书的讨论范围之中。从技术上讲,生物信息学在数据库技术、计算机网络技术及软件技术的有力支持下,生物分子信息的获取、存储以及查询已经基本得到解决。今后研究工作将着重于生物分子信息的处理、分析和解释,以期发现新的理论分析方法,设计实用的分析工具。