10月22日,國(guó)際知名學(xué)術(shù)期刊Genome Biology以“PGG.SNV: understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations”為題,在線發(fā)表了中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所/馬普計(jì)算生物學(xué)研究所徐書華團(tuán)隊(duì)基于20萬人基因組的單核苷酸變異數(shù)據(jù)庫(kù)——PGG.SNV(https://www.pggsnv.org)。PGG.SNV收錄的基因組數(shù)據(jù)涵蓋了800多個(gè)現(xiàn)存人類族群和來源于古DNA研究的100多個(gè)已消亡人類族群,總共超過20萬個(gè)基因組;因而在代表性人群數(shù)量和樣本量上均超過目前被廣泛使用的由西方學(xué)者主導(dǎo)的gnomAD數(shù)據(jù)庫(kù)。PGG.SNV更顯著的科學(xué)價(jià)值在于提供了人群、個(gè)體、基因和變異多個(gè)層面的種群遺傳多樣性和進(jìn)化參數(shù)的估計(jì),有助于更深入地解析人類基因組變異的功能和表型效應(yīng)以及理解其進(jìn)化和醫(yī)學(xué)意義。
該研究通過全基因組深度測(cè)序技術(shù)新產(chǎn)生并收集、整合公共人類基因組數(shù)據(jù)獲得2.5億以上人類單核苷酸變異(SNV),并進(jìn)行了變異頻率、基因多樣性、群體分化、功能效應(yīng)、進(jìn)化保守性、自然選擇信號(hào)、連鎖不平衡等多方面的解析和注釋。通過對(duì)人類孟德爾遺傳疾病關(guān)聯(lián)變異的頻率分析,該研究發(fā)現(xiàn)7%的此前報(bào)道的罕見病風(fēng)險(xiǎn)變異在很多人群中處于高頻狀態(tài),提示疾病分析中突變的稀有性不是確定該變異與疾病關(guān)聯(lián)的金標(biāo)準(zhǔn);孟德爾疾病突變?cè)诓煌迦褐蓄l率存在差別,表明不同族群的遺傳負(fù)荷存在差異,因而用西方族群的基因組來研究或預(yù)測(cè)其他族群的突變功能和疾病風(fēng)險(xiǎn)可能會(huì)導(dǎo)致誤判。
即便是對(duì)于大多數(shù)出于醫(yī)學(xué)診斷或研究目的或其他興趣僅僅需要簡(jiǎn)單查詢基因變異頻率信息的人來講,PGG.SNV數(shù)據(jù)庫(kù)也具備獨(dú)特的優(yōu)勢(shì)。在醫(yī)學(xué)遺傳學(xué)領(lǐng)域的實(shí)踐中,人們往往通過突變位點(diǎn)的頻率比較分析來篩選并判別突變是否可能致病。其潛在假設(shè)是孟德爾疾病相關(guān)的致病突變?cè)谧匀蝗巳褐惺窍∮械摹1容^廣泛使用的查詢突變頻率的數(shù)據(jù)資源為基于全基因組信息的千人基因組數(shù)據(jù)集和gnomAD數(shù)據(jù)庫(kù)以及基于外顯子測(cè)序的ExAC數(shù)據(jù)庫(kù)。但是以它們?yōu)槲ㄒ粎⒖紒硌芯客蛔兊念l率可能存在以下問題:首先,以上基因組數(shù)據(jù)資源均未能很好地覆蓋代表人類族群的多樣性;其次,gnomAD和ExAC中將近一半的基因組來自西方人群,而遺傳多樣性最高的非洲人群的基因組僅僅占9%,東亞人基因組所占比例則更少,因此此庫(kù)存在顯著的西方白人族源偏向性;再次,gnomAD數(shù)據(jù)庫(kù)主要以大洲對(duì)人群進(jìn)行分類,而缺少基因組對(duì)應(yīng)的族群信息。舉例來講,由于缺乏代表性亞洲人群的數(shù)據(jù),gnomAD將亞洲人群分為“韓國(guó)人”、“日本人”和“其他東亞人(other East Asian)”,因此它不能精確反饋給用戶每個(gè)族群的突變頻率信息。尤其是當(dāng)研究對(duì)象為特定的亞洲人群時(shí),gnomAD和ExAC并不是合適的參照數(shù)據(jù)集,對(duì)于亞太地區(qū)的研究者來講實(shí)際應(yīng)用價(jià)值存在較大的局限性。
實(shí)際上,亞洲人群的人口數(shù)量和族群多樣性遠(yuǎn)高于歐洲人群。PGG.SNV數(shù)據(jù)庫(kù)更好地覆蓋了目前西方學(xué)者主導(dǎo)的數(shù)據(jù)庫(kù)所缺乏的東亞和東南亞人群的基因組數(shù)據(jù)。除了廣泛收集和收錄了800多個(gè)現(xiàn)代人族群和100多個(gè)古人族群組成的20萬人以上基因組突變以外,PGG.SNV數(shù)據(jù)庫(kù)還包括了新測(cè)得的來自東亞和東南亞的16個(gè)族群共1009個(gè)全基因組測(cè)序的突變信息。這些信息在我國(guó)以及周邊國(guó)家的實(shí)際應(yīng)用中更具有參考價(jià)值。因此PGG.SNV數(shù)據(jù)庫(kù)的發(fā)布對(duì)于我國(guó)及周邊國(guó)家人群的進(jìn)化遺傳和醫(yī)學(xué)研究具有迫切性和必要性。
為了方便微信用戶通過智能手機(jī)查詢特定的變異信息,PGG.SNV數(shù)據(jù)庫(kù)同時(shí)開通了配套的微信公眾號(hào)“PGGbase”,公眾號(hào)內(nèi)提供搜索服務(wù),實(shí)時(shí)獲取變異位點(diǎn)在各群體中的頻率信息,并在線生成頻率分布地圖,為手機(jī)用戶提供一個(gè)簡(jiǎn)便快捷的查詢途徑。
考慮到全球人類基因組數(shù)據(jù)資源發(fā)展不平衡以及我國(guó)和周邊國(guó)家的人類遺傳資源管理政策變化,未來PGG.SNV基因組變異數(shù)據(jù)庫(kù)的發(fā)展將通過廣泛合作、重點(diǎn)收錄和整合我國(guó)和亞洲的人類基因組數(shù)據(jù),從(1)持續(xù)增加樣本量和數(shù)據(jù)質(zhì)量、(2)提高樣本的族源多樣性、(3)重視和加強(qiáng)亞洲人群代表性、(4)提升查詢和分析功能以及信息共享等四個(gè)方面進(jìn)一步完善和維護(hù)。
該工作由中科院上海營(yíng)養(yǎng)與健康研究所/馬普計(jì)算生物學(xué)所張超(現(xiàn)賓夕法尼亞大學(xué))、高揚(yáng)(上海科技大學(xué))、寧之琳、陸艷、張曉曦(上海科技大學(xué))、劉姣姣(上海科技大學(xué))、謝波、薛者(現(xiàn)哥本哈根大學(xué))、王曉驥、苑鍇(現(xiàn)Broad研究所)、葛雪玲、潘雨聞、劉暢、田壘(現(xiàn)斯坦福大學(xué))、魯東勝(現(xiàn)安可濟(jì)公司)、Boon-Peng Hoh(曾訪問學(xué)者)等在徐書華研究員的指導(dǎo)下完成,得到了中科院先導(dǎo)專項(xiàng)、國(guó)家自然科學(xué)基金委、上海市科委和國(guó)家重點(diǎn)研發(fā)計(jì)劃等多項(xiàng)基金的資助。(科技處)
文章鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1838-5

圖:PGG.SNV基因組數(shù)據(jù)的人群和地理分布概覽。
(A)PGG.SNV數(shù)據(jù)庫(kù)所覆蓋的人類族群的分布和基因組數(shù)量統(tǒng)計(jì);(B)PGG.SNV與gnomAD等數(shù)據(jù)集在基因組數(shù)目上的比較;(C)PGG.SNV與gnomAD等數(shù)據(jù)集在族群數(shù)量上的比較。