2022年5月23日,生物信息學(xué)專業(yè)期刊Briefings In Bioinformatics在線發(fā)表了中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所的研究成果“MultiWaverX: Modeling latent sex-biased admixture history ”。該項(xiàng)工作提出了一種新方法MultiWaverX,可推斷人群性別偏向性混合歷史,并應(yīng)用該方法分析和重構(gòu)了中亞地區(qū)、中東地區(qū)以及美洲大陸的17個(gè)人群的性別偏向性基因交流歷史。
性別偏向性實(shí)際上廣泛存在于人群基因交流過(guò)程中,即特定祖源的男女遺傳貢獻(xiàn)存在差異。非裔美國(guó)人(African Americans)和拉丁裔美洲人(Hispanic Americans or Latino American)為學(xué)界熟知的存在性別偏向性混合的人群。性別偏向性混合的研究對(duì)了解人群形成和演化歷程、理解現(xiàn)代人類遺傳差異、以及指導(dǎo)醫(yī)學(xué)研究都有重要的理論意義和應(yīng)用價(jià)值。然而,受限于分析方法,人群演化歷史上錯(cuò)綜復(fù)雜的基因交流中存在的性別偏向性長(zhǎng)期以來(lái)未得到充分研究,特別是一些經(jīng)歷過(guò)多次而復(fù)雜基因交流歷史的人群,曾經(jīng)發(fā)生的不同方向的性別偏向混合往往被忽視。MultiWaverX的提出在很大程度上為這些問(wèn)題的解決提供了新方法和新思路。
圖 1. MultiWaverX 算法流程圖
MultiWaverX是在研究團(tuán)隊(duì)前期提出的算法MultiWaver基本模型和方法的基礎(chǔ)上進(jìn)一步發(fā)展而來(lái),特別是植入了性別偏向性混合歷史推斷模塊。其具體算法可以分為以下三個(gè)步驟(圖1):(1)基于常染色體的祖先片段長(zhǎng)度分布信息,利用最大期望算法(EM algorithm)或二分搜索算法(Binary Search algorithm)估計(jì)不同混合模型下混合時(shí)間和常染色體混合比例等參數(shù),進(jìn)而利用似然比檢驗(yàn)(Likelihood ratio test)或貝葉斯信息準(zhǔn)則(Bayes Information Criterion)選擇最優(yōu)混合模式。(2)在第一步確定的混合模式下,基于X染色體的祖先片段長(zhǎng)度分布信息估計(jì)X染色體的混合比例。(3)針對(duì)每個(gè)祖先人群的每波混合事件,結(jié)合常染色體和X染色體的混合比例計(jì)算男性貢獻(xiàn)比例,從而判斷性別偏向性方向以及程度。相比于傳統(tǒng)方法,MultiWaverX有如下兩個(gè)優(yōu)勢(shì):首先,該方法可以準(zhǔn)確地估計(jì)混合波數(shù)以及每波混合事件的混合時(shí)間、混合比例和性別偏向性混合參數(shù),為后續(xù)性別偏向混合歷史的精細(xì)化重構(gòu)打下基礎(chǔ);其次,該方法充分利用常染色體與X染色體共享歷史事件的規(guī)律,通過(guò)數(shù)據(jù)量相對(duì)更豐富的常染色體推斷人群混合模式,進(jìn)而估計(jì)性別偏向性參數(shù),可以有效克服由于X染色體較短,數(shù)據(jù)量較小帶來(lái)的模型推斷不穩(wěn)定的缺陷。系統(tǒng)的模擬驗(yàn)證數(shù)據(jù)表明,MultiWaverX在不同混合模式下估計(jì)性別偏向性參數(shù)均有較高的準(zhǔn)確性,在應(yīng)對(duì)各類數(shù)據(jù)噪聲時(shí)也表現(xiàn)出一定的穩(wěn)健性。此外,研究團(tuán)隊(duì)依據(jù)混合過(guò)程中特定祖先人群男性貢獻(xiàn)比例的變化趨勢(shì),進(jìn)一步將性別偏向性混合模型歸納為以下五種(圖2):穩(wěn)定模型(steady model)、增強(qiáng)模型 (enhanced model)、減弱模型(dilution model)、波動(dòng)模型(turnover model)、抵消模型(cancellation model)。其中,性別偏向抵消模型最為特殊,性別偏向信號(hào)在經(jīng)歷多次方向相反的混合事件后得以抵消。研究團(tuán)隊(duì)在分析實(shí)際數(shù)據(jù)時(shí),發(fā)現(xiàn)中國(guó)西北少數(shù)民族哈薩克族是該混合模型的代表人群。哈薩克族主要居住于中國(guó)西北地區(qū),其主要遺傳成分來(lái)自東亞和歐洲祖先人群,且混合比例比在常染色體和X染色體水平上均為60:40,若使用傳統(tǒng)方法進(jìn)行推斷,結(jié)果均為無(wú)性別偏向混合。而通過(guò)MultiWaverX分析,研究團(tuán)隊(duì)發(fā)現(xiàn)該人群呈現(xiàn)出早期歐洲男性為主(約3000年前),近期東亞男性為主(約750年前)的兩波性別偏向性混合歷史。

圖 2. 性別偏向性混合模型分類及流程圖
現(xiàn)代人類歷史進(jìn)程錯(cuò)綜復(fù)雜,帝國(guó)的興起與衰敗,奴隸貿(mào)易與戰(zhàn)爭(zhēng),人群的擴(kuò)張與遷徙都對(duì)人群遺傳混合產(chǎn)生了深遠(yuǎn)的影響。應(yīng)用上,研究團(tuán)隊(duì)選取全球典型混合人群分布區(qū)域,中亞、中東以及美洲大陸為例,分別解析其性別偏向性混合歷史,重構(gòu)了全球人群性別偏向混合圖譜(圖3)。人群基因組數(shù)據(jù)來(lái)源于千人基因組計(jì)劃(KGP)和人類基因組多樣性項(xiàng)目(HGDP)等公共開(kāi)放數(shù)據(jù)集。中亞地區(qū)位于歐亞大陸的腹心地帶,對(duì)于促進(jìn)東西方文化、經(jīng)濟(jì)與基因交流起著重要的作用,從古至今,歐亞大陸上復(fù)雜的人口流動(dòng)歷史也不斷塑造著這片土地的遺傳多樣性。青銅時(shí)代歐洲人群東遷、公元前334至324年間的亞歷山大東征以及始于公元前130年間的古絲綢之路都促進(jìn)了早期歐亞大陸不同國(guó)家、不同文明之間的交流與碰撞。公元13世紀(jì)初,蒙古帝國(guó)的興起以及成吉思汗西征進(jìn)一步推動(dòng)了東西方在經(jīng)濟(jì)、文化、宗教等方面的交流。研究團(tuán)隊(duì)基于中亞地區(qū)混合人群的分析結(jié)果表明該地區(qū)混合事件可以大致分為兩波,其中較久遠(yuǎn)的一波發(fā)生在距今2500至3300年間,主要表現(xiàn)為歐洲男性與東亞女性為主的混合,而較為近期的一波大致為距今500至900年前,其性別偏向主要為東亞男性為主的混合。公元7世紀(jì),阿拉伯奴隸貿(mào)易與擴(kuò)張促進(jìn)了亞歐非三大洲內(nèi)各個(gè)封建文明之間的經(jīng)濟(jì)文化交流,推動(dòng)了印度洋和地中海區(qū)域海上貿(mào)易的繁榮與發(fā)展,而位于亞歐非三洲交界的中東地區(qū)也為進(jìn)一步了解人類進(jìn)化歷史提供了重要信息。基于中東地區(qū)混合人群的研究結(jié)果表明其混合時(shí)間大致為距今1600年前,且混合偏向主要表現(xiàn)為歐洲男性與非洲女性。15世紀(jì)末,隨著地理大發(fā)現(xiàn)、新航路的開(kāi)辟以及跨大西洋奴隸貿(mào)易的興起,大洲之間相對(duì)孤立的狀態(tài)進(jìn)一步被打破。基于美洲大陸混合人群的分析表明該地區(qū)人群混合時(shí)間大致處于距今400至500年前,且性別偏向?yàn)闅W洲男性與非洲女性或美洲原住民人群女性為主的混合。以上歷史事件均對(duì)現(xiàn)代人類性別偏向性混合產(chǎn)生了深遠(yuǎn)的影響,MultiWaverX的提出也為進(jìn)一步解析世界人群遺傳多樣性形成和演化機(jī)制提供了新的方法和思路。

圖 3. 現(xiàn)代人類演化歷史上性別偏向性混合模式示意圖
中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所博士研究生張瑞、北京交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院倪旭敏副教授、國(guó)科大畢業(yè)生苑鍇博士為該論文共同第一作者,復(fù)旦大學(xué)生命科學(xué)學(xué)院/附屬中山醫(yī)院徐書(shū)華教授為通訊作者。該項(xiàng)工作獲得了國(guó)家自然科學(xué)基金委、中國(guó)科學(xué)院先導(dǎo)專項(xiàng)、英國(guó)皇家學(xué)會(huì)牛頓基金、上海市科委、中央高校基本科研專項(xiàng)等多項(xiàng)基金的資助。
論文鏈接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac179/6590437