新浪博客

蛋白表达之密码子分析

2019-09-12 11:23阅读:
蛋白表达研究中,一般都会选择合适的表达载体标签和宿主系统,而往往忽视基因序列本身是否与目标载体和宿主系统为最佳适配这样一个实质性问题。基因的最表达可以通过对基因的重新优化和合成来实现,如替换掉稀有密码子而利用最密码子,RNA二级结构最,调整GC含量,避免部分
限制性酶切位点,避免一些复杂结构(发卡、重复结构)删除一些元等。以下就这些问题加以说明。 密码子偏与基因表达
在蛋白质组中各种基因的表达水平与密码子偏性(codon bias)(部分文献称“偏倚”“偏爱”)存在着某种关系:含有不常使用的密码子后面简称:稀有密码子的基因倾向于较低水平的表达,无论根据mRNA 表达或蛋白质水平的分析都是如此。到目前为止,世界上有很多的学者科学家对生物密码子表的利用情况统计并开发了在线的密码子处理系统,例如http://www.kazusa.or.jp/codon/ 该系统中密码子频率库容量都是几千个CDS序列统计得到的,极少数比较稀有的宿主系统CDS序列由于比较少统计的不是很全面。通过密码子适应指数或称为密码子偏倚值)CAI(codon adaptation index)来判定密码子是否最当基因的密码子偏倚值为0.25或更低时(如大多数基因),mRNA水平与蛋白质水平的相关性很差。对大多数高表达的基因(密码子偏倚值>0.5的基因),mRNA水平与蛋白质水平的相关性要高很多。很多公司开发在线密码子优化系统,通过该优化系统进行密码子使用情况分析以及优化。
稀有密码子是怎么导致蛋白的低水平表达的
1、稀有密码子对表达的调控
  带有相应反密码子的tRNA将氨基酸引导到mRNA上,进行蛋白质的翻译合成,然而在不同种类的生物中,各种tRNA的含量是有很大区别的,特别是原核生物尤为显著。由于不同tRNA含量上的差异很大,产生了对密码子的偏爱性,对应的tRNA丰富或稀少的密码子,分别称为偏爱密码子(biased codons)或稀有密码子(rare codons)。含稀有密码子多的基因必然表达效率低。微生物利用稀有密码子进行转录后调控主要反映在对同一操纵子中不同基因表达量的控制。例如细胞DNA复制起始时,冈崎片段的合成是在RNA引物上延续发生的。RNA引物是由dnaG基因编码并由引物酶催化合成的。细胞对这种酶的需求量不大,但dnaG与另外二个基因(rpoD和rpsU)同属于一个操纵子,后二者的产物量是dnaG编码产物的几十到几百倍,细胞如何解决这种差异呢? 它们是通过稀有密码子对翻译进行调控。研究dnaG序列时发现其中含有不少稀有密码子,即在64种密码子中,一些在其他基因中利用频率很低的密码子却以很高的频率出现在dnaG中。例如,比较大肠杆菌中25种非调节蛋白基因和dnaG序列中3种Ile密码子的利用频率发现,dnaG对稀有密码AUA的利用频率高达32%,而非调节蛋白中仅为1%。与dnaG相似的还有许多调控蛋白,如LacI、AraC、TrpR等在细胞内含量也很低,编码这些蛋白的基因中某些稀有密码子的使用频率较高,而明显有别于许多非调节蛋白。分析认为,由于对应于稀有密码子的tRNA较少,高频率使用这类密码子的基因翻译过程很容易受阻,从而控制了该种蛋白质在细胞内的合成数量。
2、二级结构
重复序列过多,会增加基因合成的难度。反向互补序列也对mRNA二级结构有重要影响。mRNA 二级结构是影响翻译过程的重要因素,复杂稳定的二级结构会阻碍翻译过程的顺利进行,特别是核糖体绑定位点( RBS)附近的二级结构。 mRNA 的二级结构预测是一个复杂的过程,需要考虑碱基配对、自由能等多种因素,密码子优化系统可以快速有效识别发卡(Hairpin)结构区并进行有效规避。同时在起始密码子附近的mRNA二级结构可能会抑制翻译的起始或者造成翻译暂停从而产生不完全的蛋白。
3、调整GC含量
表达序列中的GC含量超过70%的时候可能会降低蛋白在大肠杆菌中的表达水平。而且序列中GC含量超过70%不利于基因的合成,一般对序列进行密码子优化的时候都会考虑将GC含量丰富的序列中的GC含量降低一些。
4、限制性酶切位点
限制性酶切位点需要根据实际情况进行优化的时候避免,以免与需要用到的酶切位点产生冲突,影响后续的实验操作。
5、特定功能的 Motif
许多motif在基因表达过程中承担着重要的角色,随着研究的不断开展,功能性motif也在不断被发现,举例如下:
· TATA 框:是构成真核生物的启动子元件之一,位于转录起始点上游-30bp处,它可以保证转录的正确定位
· SD 序列: 作为原核表达的核糖体绑定位点,是翻译必不可少的信号
· Kozak 序列:真核生物中符合Kozak规则的基因,其转录及翻译效率较好。
· Chi 序列:在原核生物中能够增加自然重组的几率,可能会影响人工重组蛋白的表
· 隐蔽剪切位点:真核生物中存在大量的隐蔽剪切位点(cryptic splice sites),一旦被激活,会造成mRNA的剪接偏离我们的预期。
6、翻译终止效率
蛋白表达水平受许多不同因素和过程影响。蛋白稳定性、mRNA稳定性和翻译效率在蛋白生产和积累中起主要作用。翻译过程分为起始、延伸和终止三个期。对于翻译的起始,原核mRNA需要5'端非翻译前导序列中有一段叫Shine-Dalgarno序列的特异核糖体结合序列。在真核细胞,有效的起始依赖于围绕在起始密码子ATG上下游的一段叫Kozak序列的序列。密码子利用或偏爱对延伸有深刻的影响。例如,如果mRNA有很多成簇的稀有密码子,这可能对核糖体的运动速度造成负面影响,大大减低了蛋白表达水平。翻译终止是蛋白生产必须的一步,但其对蛋白表达水平的影响还没有被研究清楚。但是最近的科学研究表明终止对蛋白表达水平有很大的影响。总的来说,更有效的翻译终止导致更好的蛋白表达绝大多数生物都有偏爱的围绕终止密码子的序列框架。酵母和哺乳动物偏爱的终止密码子分别是UAA和UGA。单子叶植物最常利用UGA,而昆虫和大肠杆菌倾向于用UAA。翻译终止效率可能受紧接着终止密码子的下游碱基和紧靠终止密码子的上游序列影响。在酵母中通过改变围绕终止密码子的局部序列框架,翻译终止效率可能被减低几个100倍。对于UGA和UAA,紧接着终止密码子的下游碱基对有效终止的影响力大小次序为G>U,A>C;对于UAG是U、A>C>G。对于大肠杆菌,翻译终止效率可因终止密码子及临近的下游碱基的不同而显著不同,从80%(UAAU)到7%(UGAC)。对于UAAN和UAGN系列,终止密码子下游碱基对翻译的有效终止的影响力大小次序为U>G>A、C。UAG极少被大肠杆菌利用相比UAAN和UGAN,UAG表现了有效的终止,但其后的碱基对有效终止的影响力为G>U,A>C。对于哺乳动物,偏爱的终止密码子为UGA,其后的碱基可以对in vivo翻译终止有8倍的影响(A、G>>C、U)。对于UAAN系列,in vivo终止效率可以有70倍的差别,UGAN系列为8倍。如果终止密码子附近序列没有最佳化,可能发生明显增加的翻译通读,因此减少了蛋白表达。例如,在兔网状细胞无细胞翻译系统里,UGAC的翻译通读可以高达10%,而第四个碱基如果为A,G或C,翻译通读为<1%。总的来说,翻译起始框架、翻译终止序列框架和密码子利用应该仔细选择,以利于蛋白的最高水平表达。翻译终止序列框架能几倍地改变蛋白生产水平。
真核细胞中的异源蛋白表达
异源蛋白质在细菌中表达是目前使用的主要的蛋白生产系统。大肠杆菌一直是最经济的系统之一。然而为了生产需要特异修饰、胞外分泌或有特异折叠需要的蛋白质,其他表达系统也是需要的。真核细胞在表达原核来源的基因、真核基因的cDNA拷贝或其他无内含子的基因时可能表现很多特异问题。富含AT的基因在很多真核细胞中表达时会遭遇很剧烈的障碍。主要的真核信号序列如加poly-A的位点、酵母转录终止位点和真核mRNA去稳定序列都是富含AT的。内含子序列也趋向于富含AT,尽管他们有参与剪切过程的很特异的识别序列。虽然绝大多数原核基因没有剪切或聚腺苷过程,但这些真核过程需要的保守序列可能存在于原核基因中,因此当这些基因在真核细胞中表达时可能引起特异的问题。而且诸如哺乳动物和单子叶植物细胞的特异真核表达系统可能不能有效地表达无内含子的基因。真核mRNA在离开细胞核进而在胞浆的核糖体上被翻译前需要特异的处理和修饰。这些过程包括去除内含子、5'端甲基化帽子形成和3'端加poly-A。内含子去除需要5'剪切位点G75/G100U100A65AG65U保守序列、3'剪切位点、富含密啶NC66A100G100/G56保守序列和C72T98R77A100Y75保守序列。有效的加poly-A和mRNA剪切需要一个由两个部分组成的信号:加poly-A保守序列AAUAAA和在切割位点内的50个碱基的富含GT的序列。酵母真核转录终止序列(几个不同的富含AT序列,如含TTTTTATA,TATATA,TACATA,TAGTAGTA的一个38bp区域)被研究的最清楚。这些结果来自对酵母突变体CYCI mRNA的mRNA水平和相对长度的确定的实验。近期用in vivo质粒稳定性分析的研究结果证明:TATATA似乎和原始的38bp野生型区域一样有效地终止转录,而TAGATATATATGTAA和TACATA效率差些,TTTTTTTATA几乎没有效率。所有这些序列在反方向时没有终止转录功能。不幸的是几乎没有其他真核表达系统转录终止序列方面的信息。内含子对几个哺乳动物基因的正常表达是必需的,包括Beta-球蛋白、SV40 late mRNA和二氢叶酸还原酶基因。单子叶植物细胞充分表达乙醇脱氢酶的cDNA拷贝、报告基因氯霉素乙酰转移酶、Beta葡萄糖苷酸酶和其他缺乏内含子的基因时也依赖内含子。转录区域内引入内含子可以通过未确定的转录后机制增强表达。(免疫球蛋白基因)内含子可能也包含转录增强子,因此通过转录机制增强表达。总的来讲,如果存在某些DNA序列,真核异源蛋白表达可能是个难题。为避免剧烈的表达减少,需要对基因进行扫描,确认是否含上述提及的富含AT的序列。而且,在几个真核系统表达无内含子基因可能需要引入内含子以实现外源蛋白的充分表达。



蛋白表达之密码子分析



我的更多文章

下载客户端阅读体验更佳

APP专享