人類學雜記——24. 中國人的超級祖先

2013-10-18 12:53阅读:
(溫馨提示:簡化字版本見後。)
2013年10月15日,我在arXiv文章數據庫掛出了一篇文章(http://arxiv.org/abs/1310.3897 ,帶附件的下載地址見http://vdisk.weibo.com/s/qGPNPvCSIf0t ),題目是«Y Chromosomes of 40% Chinese Are Descendants of Three Neolithic Super-grandfathers»,即《40%的中國人的Y染色體來自三個新石器時代的超級祖先》,基本內容如下:首先是對110個東亞樣本做Y染色體測序,得到質量可以接受的序列共78個。從裏面找到了4000多個新的SNP位點,命名以F(復旦)打頭。因爲我們捕獲來測序的範圍是隨機的(取的Y染色體上沒有重複的約4 Mbp的很多不連續片段的集合,與已知支系信息無關),範圍又比較大,所以可以畫一棵明確且沒有偏向的演化樹(因爲絕大多數位點都是沒有回復突變的),然後就能按傳統的分子鐘方法計算時閒了。
計算相對時閒只要數每支的突變個數再相比就行了(因爲有波動,具體時閒還是按最大似然法綜合算的),但絕對時閒,就是說平均一個突變到底需要多少年,是需要標定的。這裏我們先只用了一個1×10-9/年/鹼基的突變率。文裏用SNP算的相對時閒能比用STR算出來的準很多(文中說了,準確度的誤差範圍和用於計算時閒的SNP數開根号成反比)。標定的絕對年代(即SNP的絕對突變率)也許還有些誤差,但至少結果也在以往各種方法估出來的範圍之中(以往算出走出非洲年齡最小的不到4万年,最大的8万年,我們算出5.4万)。
人類學雜記——24. <wbr>中國人的超級祖先

人類學雜記——24. <wbr>中國人的超級祖先

文章的結論
文章最大的亮點有兩個,一個是能相對以往準確得多地算出分支時閒,至少是相對時閒,另一個是發現O3下面的三個大的星狀擴張(下面具體談到)。以往用Y-SNP不能算時閒是因爲實驗是特地挑的已知SNP來做的,數量少,且本身帶有偏向性。而本實驗是不帶任何人羣方面的預設來找的SNP,是不帶偏向性的。線粒體全測能算時閒也是同樣道理。當然因爲Y染色體位點多,平均每100年左右就能有一個突變(用全序,即10Mbp左右的範圍),而線粒體平均要2000多年纔能在全長上有一次突變,因此Y染色體算出的時閒精度能比線粒體好很多。
支系方面比較重要的結論有以下幾點:
1. 走出非洲的C、DE、F三大支的分支年代在5万多年。雖然C和F在一起而DE是早分出的,而因爲E主體的分佈是在非洲,本來有人提出CF和D可能是兩批分別走出非洲的,但我們發現CF共有的SNP只有3個,對應大概不到1000年,這樣C, DE和F仍是準三叉,根據奧卡姆剔刀原理,還是M168+整體遷出非洲然後E那支再回流非洲的可能性稍大一些。
2. F支經歷過極強的瓶頸,以致於和C分開後過了差不多2万年纔再一次產生下游分支G, H, IJ, K,K下面的分化也很快(NO, P和LT目前來看也是個準三叉,M和S因爲沒有樣本,現在拓撲關係還不明朗),也就是說,F支下面按字母分的單倍羣從樹幹上分出的時閒大體都在3.6 – 2.4万年前之閒,尤其3.6 – 3万年前是一個快速擴張的時期。O3-M122與O1-M119、O2-M268分開後不久,O1、O2再分開。而下游的分化總的次序是O2最早,其次O3,而O1最晚(不過可能和這次測序的O1樣本多數取自華東有關,多取一些南方少數民族的O1樣本可能會有一些更早的分支。)
3. O系的地理佈散,尤其是O3a-M324(占中國人口的一半以上),主要發生在1.9 – 1万年前,即末次冰盛期(2.3 – 1.8万年前)之後的舊石器時代。這段時閒全球氣候逐漸回暖,海平面從現在海面以下上百米一直升到和目前海平面接近的高度,人類的可活動範圍大大擴展,技術上也有了一些創新,比如陶器的發明,農業也出現了萌芽。
4. 在樹上觀察到,5000到6000多年前左右,在中國出現了三個超級祖先,一個在M117下,一個在M134的另一個分支,即F444下,還有一個在002611的下游F11下。這三個超級祖先出現的年代很接近(次序按不同方法算出來有所區別)。我把他們分別稱爲Oα, Oβ和Oγ,算作對現有單倍羣命名系統的一個改進這三個大約6000年前的人的後代構成了現在漢族人羣的40%以上。之所以很特別(因爲一個人羣往上推總會推到某個時候有個祖先的後代占了一大半),是因爲在這三個擴張以前的Y染色體樹的所有分支,都是二叉,而這三個擴張是星狀擴張,即突然從一個人演化出難以分出先後(這篇文章的測序精度是平均250年一個突變)的5 – 7個支系,而且這5 – 7支是都有後代一直延續到現在的。長支或二叉當中的那些古人當然不是說那些人都沒有兄弟,而是說無數輩的兄弟都沒能傳下男性後代,當時的人口擴張也相對緩慢,只有這幾支幸運兒的後代終於活到了現代。
5. C3-M217是占中國10%左右的大支系,很清楚分爲南北兩支,2.6万年前分開,比O3和O1’2分開還略早。結合STR結果來看,漢族的C3基本都是南支,且存在一個6000多年前的擴張(可能比O3下的三大簇略早)。漢族和北方民族都常見的C3d-M407屬於南支那個擴張下游的。而星簇(star cluster,以前Zerjal et al.說是成吉思汗生出來的)、448-del兩個重要支系(應該也有C3c-M48)屬於北支。C3的北支基本在漢族裏不存在。關於C單倍羣的更多細節,我的同事蘭海應該會發表一篇paper來說明。
6. N單倍羣的最早分化也在1.6万年前。也分爲南北兩支。結合STR來看,原先的N1a-M128和N1c-M46(應該也有N1b-P43)都是北支的。關於N的更多細節,我也會另外寫一篇paper來講。


文章裏沒寫的(因爲文章本來要投大雜誌的,因篇幅有限或說了會被審稿人挑刺所以沒放在文章裏,或者被別人搶去的,或是證據不足的猜想):
7. 時閒估計的不精確性。因爲原先文章裏的用STR計算突變率有一些問題,在後來投的稿裏這部分被砍掉了。但相對的STR時閒計算是沒有問題的。這裏給出兩張散點圖,比較相同的兩個樣本用17-STR得出的時閒和直接數相差的SNP數的對比。前一張圖是所有樣本閒的兩兩比較。後一張圖是Oγ星狀擴張中每對共祖於星點的兩個樣本的STR計算時閒和相差的SNP數的對比。因爲是同一個星,理論上兩個樣本的共祖時閒幾乎相同。可見SNP算出的時閒精度遠好於STR算出的,而STR得到的結果經常可能差出一個數量級以上。或者說,兩個樣本STR很遠的可以排除近期的共祖,但STR近的,實際共祖時閒可能很晚但也不排除實際很早但是因爲巧合而STR接近了。經常有人問,我們兩個人STR差4個點,到底能差多少年,我說100年到1万年都沒準,這確實不是搪塞。
人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

8. 這三個超級祖先到底是什麼人。首先,這個擴張年代正好在五六千年前,屬新石器時代晚期,對應的文化包括仰韶時代晚期和大汶口文化晚期等(我知道有人認爲這三個擴張不是發生於黃河流域的,留以後發現更多證據,尤其是古DNA證據來回答了。)這個時代我知道的有兩個大的變革,一個是農業的大發展,穀類從採集、狩獵的輔助食物變成了食物的主體部分,人們的食物開始嚴重依賴農業,同時聚落的分佈密度大大增加,說明人口增加。同時又有一個社會結構的變化,墓葬從羣體葬逐漸發展出了單人葬和對偶葬,說明社會從母系社會變成了父系社會。因此,對於這三個超級祖先,有兩種解釋:其一,他們是最早的集約化農民,因爲生產力(穀物和人口的)大幅發展,成了超級祖先,因此稱Oα, Oβ和Oγ分別爲“農民甲”、“農民乙”和“農民丙”。有人不相信這種解釋,認爲他們肯定是很偉大的部落首領,有巨大的權力而能占有很多女人,建議用三皇來稱呼,我按照計算出的時閒,分別把Oγ, Oβ和Oα分別稱作“天皇”、“地皇”和“泰皇”。(還有建議把他們稱作“炎帝”、“黃帝”和“蚩尤”的,因爲時閒不符合,而且因爲可能有歷史原型而對應支系可能被證僞,再加上“蚩尤”從民族學上看大概對應苗瑤的O3a2b-M7而不屬這三大簇,所以我覺得還是用純神化的三皇更合適一些。)當然用三皇命名有些人會覺得神棍一些,甯可用“農民”,不過其實把人類父系共祖稱作“Y染色體亞當”同樣神棍。我覺得反正這三簇是客觀存在的,短時閒也不容易證明到底他們是什麼樣的人物,那稱作農民還是三皇就看個人信仰了。
9. 除了三個O3下面的超級祖先,另有兩支也需要關注,一個是C3下面F1144的下游擴張,即南支,擴張時閒可能比O3的三大簇略早,另一個是O1a1下面F78的下游擴張,年代可能只有4000年不到。這兩支的人口大概也各占了漢族的10%上下,但因爲高通量測序時沒有足夠的樣本或有的樣本測序質量不好,尚未能表現出星狀擴張,但我相信如果能擴大測序樣本的數目,也是能找到類似星簇的擴張的。(我還暫時沒有給這兩支起名字。)這樣,把這兩支也加上,這五個新石器祖先的後代就能占到漢族及中國人60%的比例了。
人類學雜記——24. <wbr>中國人的超級祖先 人類學雜記——24. <wbr>中國人的超級祖先 人類學雜記——24. <wbr>中國人的超級祖先
人類學雜記——24. <wbr>中國人的超級祖先
人類學雜記——24. <wbr>中國人的超級祖先
(上圖是五支祖先大致的分佈範圍和所占人口比例。不是嚴格計算,漢族之外的支系判斷可能有錯。)
10. 關於華夏的起源。因爲這篇文章計算了時閒,所以明確了,漢族(或中華民族)的大多數姓氏的都起源於一個幾千年前叫黃帝的共同父系祖先必然是不可能的。新石器時代晚期最大的簇(Oα)也不過占漢族父系的16%。不過,這篇文章同樣也說明了,史前不遠的時代,華夏確實有少數幾個超級祖先,他們短時閒繁殖出了大量的後代,也就是說這些有關共同祖先的傳說確實是有其原型的,只不過其重要程度被誇大了


文章發表歷經的坎坷
很多人,包括愛好者和業內人士,都知道我的結果早就出來了,這兩年一直都在催問我文章什麼時候能出來,位點什麼時候能公佈。首先,按照通常的科硏規範,似乎文章沒有經過同行評議,文章沒有發出,是不能對外發佈消息的。其次,文章是實驗室老師辛苦申請基金、多人多年合作做出的結果,隨便公佈數據而沒有相應文章發表是損害實驗室利益的,而今後繼續申請科硏基金、評職稱等等,按目前中國的體制,全看文章的影響因子,且只有一作和通訊作者算數。其他的,至少對於生物學來說,發中文文章不算有效工作,合作作者不算,出書不算,做科普不算,這些只能在有閑的時候做。所以,對於這篇文章,首先只能攷慮發paper,而且雜誌分數越高越好。
這篇文章首次投出是2011年11月,這兩年先後投過Nature, Science, Nature Genetics, Nature Communications, PNAS。有的雜誌是被編輯直接斃掉,還有的雜誌是跟審稿人撦了好幾次皮,先後投過3個版本,歷經9個月,最後被拒掉的。幾次投出之閒還有過好幾次大的內容的刪改,比如突變率的計算方法和SNP-STR對照比較等,還有改文章的着重點等。前一次拒掉和下一次投出之閒改文章經常又要花幾個月。這兩年,好幾篇實驗做得並不如我們的文章登上了Science或Genome Research這樣的雜誌,我們文章的新穎性也越來越差。
最終爲了避免文章中的發現變得一錢不值,我出於促進知識傳播和對我的青春負責的理念,決定還是先把文章公開到arXiv上。這個數據庫是沒有同行評審的,也就是說只有靠讀者來衡量文章的價值。但這上面的文章能被引用。有同行評審的雜誌我也還在投着,就算能發出去,分數也沒多少了。從攷覈體系角度看,這四年的我和同事的工作和花的硏究經費就算餵狗了,我的穩定教职也沒戲了,只能繼續做一個二站的博後。(話說,有時候很明顯從編輯和審稿人打回的意見裏能感覺到對中國或東方人的歧視。這篇文章的作者全都是中國人,復旦大學或者中科院計算生物所的成員。因爲發表時閒拖久了,文章本來的亮點一個個被別人的文章搶了去,也只得把題目從一個全球性的時閒計算改成關於中國人祖先擴張的,導致文章更難發表。如果是關於猶太人或者歐洲人的文章,經常是隨便一點兒數據都能發到高分雜誌。之前曹操後代那篇文章也只投到了日本的Journal of Human Genetics雜誌。)
這期閒我如果做錯了什麼,或者什麼原因造成的文章難以發表,有什麼更好的信息發佈方案,都可以幫忙指出,如果有辦法能同時兼顧知識傳播和實驗室利益,我會很感激的。


===============以下是簡化字版本=================


2013年10月15日,我在arXiv文章数据库挂出了一篇文章(http://arxiv.org/abs/1310.3897 ,带附件的下载地址见http://vdisk.weibo.com/s/qGPNPvCSIf0t ),题目是«Y Chromosomes of 40% Chinese Are Descendants of Three Neolithic Super-grandfathers»,即《40%的中国人的Y染色体来自三个新石器时代的超级祖先》,基本内容如下:首先是对110个东亚样本做Y染色体测序,得到质量可以接受的序列共78个。从里面找到了4000多个新的SNP位点,命名以F(复旦)打头。因为我们捕获来测序的范围是随机的(取的Y染色体上没有重复的约4 Mbp的很多不连续片段的集合,与已知支系信息无关),范围又比较大,所以可以画一棵明确且没有偏向的演化树(因为绝大多数位点都是没有回复突变的),然后就能按传统的分子钟方法计算时间了。
计算相对时间只要数每支的突变个数再相比就行了(因为有波动,具体时间还是按最大似然法综合算的),但绝对时间,就是说平均一个突变到底需要多少年,是需要标定的。这里我们先只用了一个1×10-9/年/碱基的突变率。文里用SNP算的相对时间能比用STR算出来的准很多(文中说了,准确度的误差范围和用于计算时间的SNP数开根号成反比)。标定的绝对年代(即SNP的绝对突变率)也许还有些误差,但至少结果也在以往各种方法估出来的范围之中(以往算出走出非洲年龄最小的不到4万年,最大的8万年,我们算出5.4万)。
人類學雜記——24. 中國人的超級祖先