新浪博客

蛋白质组和转录组

2013-05-15 14:38阅读:
在思考不同实验层次产出数据比较的问题时,我觉得有一个很重要的问题要首先考虑一下:就是蛋白组和转录组数据间的关系,这决定我们可不可以拿这两个不同层次的产出数据来相互比较并下结论。众所周知,就是同一种脏器甚至样品来源的蛋白组数据和转录组数据间定量对接都没有好的相关性。退一步说,不考虑定量而只考虑有无,蛋白组数据与转录组数据也很难对等。面对这种现象,极端地,无非有两种判断:
第一,认为这种蛋白组与转录组的数据不可对接性就反映了这两层次生物过程的在质上的不等价性,也就是有转录本不一定会接下来有蛋白产物,甚至蛋白也不一定来源于所在细胞的转录本。在这种情况下,以下两种数据产生的原因分别是:
⑴ 蛋白组有而转录组无——蛋白来源于外界合成后转运进来。
⑵ 转录组有而蛋白组无——转录本根本就没有表达成蛋白。
第二,认为这种蛋白组与转录组的数据不可对接性只反映了这两层次生物过程的在量上的不等价性以及检出技术的局限,也就是凡是到了转录本这步,通常一定会接下来继续得到对应的蛋白产物。在这种情况下,以下两种数据产生的原因分别是:
⑴ 蛋白组有而转录组无:转录本因为低丰度或其它技术原因未能被检出。
⑵ 转录组有而蛋白组无:蛋白因为低丰度、极端理化性质或其它技术原因未能被检出。
由于基因检测技术远远成熟于蛋白检测技术以及基因的可扩增性等原因,因而呈现出转录组数据远多于蛋白组数据的状况。
对于蛋白组数据与转录组数据的不对等性,这两种肇因应该是都有可能存在的,但我个人认为第二种是决定性的,也就是是技术问题导致数据集的不对等性。试想生物体到了转录本这一步而不继续得到蛋白产物,是一种资源的浪费,是不符合效率的,即使在某些紧急调控和病理情况下存在,也绝对不会是主流行为。扩展开来:
⑴ 逐级调控是可以的,但一般是线性或级联放大的才符合经济有效的调控原则。
⑵ 那些在转录本水平高但蛋白水平低的产物,应该也是线性的或级联放大的,较低的放大系数可能用以稳定重要蛋白的量。在这种情况下,蛋白水平实际上与转录本水平持平更多是稍有放大,但由于基因检测技术远远成熟于蛋白检测技术以及基因的可扩增性等原因,因而转录本可被检出的阈值较低,呈现出表观上对
应蛋白检测不出来的现象。
⑶ 至于第一级(转录)放大而第二级(翻译)抑制的情况,从生物学效率上怎么都说不过去。
如果承认以上的观点,也就是转录组有的,蛋白组也一定会有,只是技术所限而没被检出罢了。那么自然会有这样一个推论:除去某些紧急调控和病理情况,在正常情况下,在质(有无)上,蛋白组对应的转录本应该就是转录组本身,而并非后者的真子集。
至于讨论到定量,也就是转录本到蛋白产物的放大系数,可以依据这个放大系数或更进一步的mRNA→蛋白数量模型来将基因-蛋白分类而不是强行对接。但是还是因为技术本身的局限,数据中加入了很多干扰和不定因素,目前在定量问题上只能量力而行。
回到蛋白组和转录组数据整合上,如果遵循蛋白组对应的转录本应该就是转录组本身的原则,蛋白组得到的数据应该和转录组得到的数据加合在一起,得到一个在技术上加合而生物上(非定量)均质的数据集。每个集合单元(比如每种组织来源)间的这种数据集进行比较,在集合单元内就“不分门户”。一句话:如果不考虑转录翻译中的定量变化而只考虑有无,蛋白表达谱数据和基因表达谱数据实际是不同技术对一个生物实体的测量。



参考文献:Dynamic covariation between gene expression and proteome characteristics
个人认为,蛋白组数据与转录组数据不可能完全对应,
1. 这是两个不同层次上的调控,
2.每个层次的调控,每个成员都受到其他成员的作用,每个小系统组成大系统,小循环组成大循环。。。牵一发而动全身
3.系统的调控复杂程度超出我们的想象,将来一定要借助大型计算机的运行
KEGG的静态表观图示只是表示他们有某种作用关系,具体的上调或下调,调控的幅度还不知道
请大侠们斧正再斧正。。。
蛋白组数据与转录组数据对应?目前的问题就太多了,
数据上的,理论上,计算上的,方法上的,工具上的,代谢库库方面,硬件等等等等都是说不清道不明的帐。
就比如说你得到一组芯片的原始数据,你想看看他们在某途径上的变化,第一步要做的就是直接统计淘汰一些数据,还是先不统计之后再慢慢解释。也就是先数据统计再看规律,也可以先看规律再统计。但是两种方法都很不好用。
先统计再看规律(这是目前最常用的方法),你会得到一个很少的数据量,之后再想从这些数据里面弄出点文章来,那就难说了,也就是明明有一些功能相关呈现一致性变化的酶类,但是一经统计就剩下1-2个,那就看不出这个一致性变化了,简单的说,一个数万的microarray数据,统计之后就只能检出数百,分配到几百条pahtway上每条也就分到几个基因,这其中的大部分还被那些诸如糖酵解,三羧酸循环之类的途径占去,而这些途径受影响因素太多,根本就没法解释为是受你的一个处理导致的。此外还有一堆未知功能的基因家族,他们也要占去一些可看见调控的基因,这些家族里面好多成员根本就不知道有什么功能,就算是确切得到了某成员受到如何如何调控也没有用,因为这个成员也许就是个有可读框而且和什么家族有序列同源的的一段,至于它真正是个什么谁都不知道。再剩下那几个单个的基因又不一定行使相关的功能,于是就只能单个讲,而不能从整体上去说明。所以把数据先统计再讨论功能,就不太好说,因为淘汰的量太大,当然这里面也有芯片技术方面自身的原因。
那么先讨论功能再统计呢?我们就简单试了一下,结果是问题更大。就是你辛辛苦苦得到的某些一致性调控而且功能相关的基因,经过ttest之后,结果就全没了,或者面目全非了。因此就得用些更加细致的统计方法,这样一来就有点加工数据的味道,可靠性当然是要下降,而现在针对如何实现从转录物向蛋白过渡的统计方法上也是不够细致的。最后弄得好多问题只能硬着头皮去说。
简单举个例子,比如某基因家族在wt中是8,如果某处理达到9才能通过统计显著性,那数据中此类功能相关的基因(比如20个成员)全都是在8-9之间。既不小于8也不大于9(我处理的一些数据总是能看见这样的)。也就是这组处理的数据肯定是高于wt,而不是由随机造成的,而且有一致性变化,但是你有不能通过统计去说明,如果你用个别的测试又会多少受到些质疑,这样就在数据处理的后期产生麻烦。
这还只是面对转录组数据的开始一步,之后的问题多了去了,一个检出数据就能对应吗一个转录物吗?一个转录物就能对应一个蛋白吗?这个蛋白是实验验证过的,还只是个比对得到的?就不可能是假基因或者特异性表达基因?是不是还受实验处理之外的其他的多因素影响?这个蛋白是数量多功能就强吗?就没有修饰吗?降解情况如何?这个蛋白是影响整个途径的Key,还只是个无关紧要的小喽罗?就算真有影响,那用个什么办法从那么多的数据里面把它找到?找到这个方法和算法及统计方法可靠吗?得到转录组数据本身的技术因素导致的转录物丢失或者误差怎么算?……
你所说的两种方法的有效性,你自己简单试一下是没有多少说服力的,我们要看看文献里面有多少成功的例子.
关于第一种方法,先统计再看规律,这样的文章太多了,好文章和坏文章都有,就不一一列举了.
关于第二种方法,先讨论功能再统计呢,这是一种非常有意思的方法,可以分析整个代谢通路是否在具体的生物过程中被激活,我列几篇文献提供大家参考.
Proc Natl Acad Sci U S A. 2005 Sep 30; [Epub ahead of print]
Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles.
Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP.
Broad Institute of Massachusetts Institute of Technology and Harvard, 320 Charles Street, Cambridge, MA 02141.

我的更多文章

下载客户端阅读体验更佳

APP专享