11月3日,《核酸研究》(Nucleic Acids Research)在線發表了中國科學院上海生科院(人口健康領域)計算生物學研究所徐書華研究組的研究成果“PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations”。該研究分析了涵蓋全球范圍107個國家的356個人類族群的基因組多樣性和祖源信息,并發布了開放獲取的專門數據庫——“PGG.Population”(群體基因組學·族群,網址:https://www.pggpopulation.org/)。PGG.Population是迄今唯一在基因組水平專門解析人類族群遺傳關系和祖源信息的公開數據庫,同時也是目前收集族群數量最大的群體基因組數據庫,為研究人員、臨床醫生及學生和公眾理解不同人群的遺傳背景提供一個查詢和分析平臺。
人類族群多樣性的形成是一個遷移、隔離、分化、再接觸和交流的復雜演化過程。同時,長期對特定環境的適應也可能影響特定的性狀以及基因組局部區域的多樣性變化。相對來講,人群的基因組多樣性在很大程度上決定了其表型多樣性——這也是族群特異性的表型可以世代傳承的原因。因此,要真正理解人類不同族群在膚色、體質以及疾病等性狀上的差異,最終需要回到基因組、追溯人群的演化歷程。眾多大型國際計劃(比如人類單倍體型圖計劃和千人基因組計劃)以及我國此前完成的各類全基因組關聯研究(GWAS) 都集中于關注常見主體人群。而對各地少數族群(大多是土著人群)的研究還很缺乏。一些研究者逐漸意識到,在一個人群研究中的困惑,往往在另一個人群的研究中找到答案。對比了青藏高原人群的基因組,我們才了解為何平原人群無法像藏族人那樣舒適地生活在高原上。專家認為,這就是多樣性的魅力,也是進化留給我們的財富。
PGG.Population正是在這樣的大背景下建立起來。研究人員通過測序或者收集眾多人類群體基因組研究數據,對每個族群的基因組重新整合與分析(包括人群的地理語言歸屬等基本信息、Y染色體與線粒體譜系、群體間親緣關系、群體遺傳結構、遺傳混合以及自然選擇印記等),同時建立了數據庫,以開放獲取的方式向公眾展示每個族群的基因組多樣性與祖源信息。截止目前,該數據庫包括7122個個體的基因組數據,覆蓋來自107個國家的356個族群的,每個族群都有自己的“故事” 。該數據庫以理解每個人群的基因組多樣性與遺傳背景為主,同時對其他研究領域也具有重要的學術意義和應用價值。人類群體基因組數據庫建設任重道遠。全世界有超過2000多個族群,而該庫目前只包括世界族群的1/6強。 課題組正在收集或產生更多的來自不同族群基因組數據,以覆蓋更多的族群,以期用于全面探索亞洲人群尤其是東亞、東南亞族群的演化歷史和自然選擇等遺傳和演化問題。同時可供遺傳學、語言學、體質人類學、醫學等行業參考和使用,應用于生物醫學等多個領域的研究。此外,研究者們同時希望公眾通過訪問和查詢該數據庫對人類基因組多樣性和人群祖源等方面的知識和信息有更廣泛和深入的理解。
該工作是上海生科院(人口健康領域)計算生物學研究所徐書華研究組博士研究生張超、高揚(上海科技大學)完成,研究人員陸艷、鄧戀以及博士研究生劉姣姣(上海科技大學)、馮啟迪、田壘、薛者等參與了該項工作。該項工作得到了中國科學院戰略性先導科技專項(B類)、國家自然科學基金委重大研究計劃及國家杰出青年科學基金、中科院青年促進會、上海市科委等多項基金的資助,同時得到國家遺傳與發育協同創新中心支持。
原文鏈接:https://doi.org/10.1093/nar/gkx1032

PGG.Population數據庫網站主界面