2020年1月8日,國際學術期刊Nucleic Acids Research正式發表了中國科學院上海營養與健康研究所/馬普計算生物學研究所徐書華研究組與生物醫學大數據中心的研究成果“PGG.Han: the Han Chinese genome database and analysis platform”。該研究作為十萬人漢族基因組計劃一期成果,收集并分析了11萬漢族人基因組單核苷酸變異數據,并發布了漢族人群的遺傳數據庫及在線分析平臺 – “PGG.Han”, http://www.pgghan.org,此舉填補了中國人群在大規模可用參考基因組數據集上的空白、并提供了免費在線計算分析平臺。
眾所周知,不同人群和個體由于其遺傳背景不同,大多數性狀或疾病的遺傳基礎和分子機制存在不同程度的差異。隨著研究的深入和規模的增長,對大型人群參考數據集的需求越來越迫切。近年來,世界各國都在著手建立針對性的人群特異性參考數據集。早在2012年,英國就啟動了萬人基因組計劃(UK10K),并取得了顯著的成果。緊隨其后的美國精準醫學項目(TOPMed)對個體化醫療的發展起到了支撐性作用。其他地區包括亞洲不少國家也都先后啟動了類似的國家計劃。近年來的研究也逐步凸顯了大規模人群特異性參考數據集在復雜疾病的深入解析以及罕見病相關基因突變的判定等方面的重要性。但是,我國作為人口大國以及漢族作為世界上人口最多的族群,長期以來尚未建立適合國情的大型參照數據集,這個狀況直到我國的精準醫學計劃啟動三年以后也未得到改善。
經過多年的努力和積累,徐書華研究組聯合多家研究單位,促成10萬人漢族基因組計劃(The Han100K Initiative)的啟動和實施。Han100K計劃的成員單位和合作者可以通過鏈接(https://www.hanchinesegenomes.org/HCGD/about)查詢,并且處于持續更新中。作為該計劃一期成果,漢族基因組數據庫及在線分析平臺(PGG.Han)肩負著重要使命。PGG.Han是目前唯一針對漢族人群的、也是最大規模的、集數據存儲、發布與在線分析為一體的參考基因組數據平臺。當前上線的PGG.Han版本主要基于對早前基因組數據的收集和分析整理,更專注于提供平臺和構架,為后期持續納入的高質量深度測序數據奠定基礎。目前PGG.Han的漢族樣本在地理分布上共覆蓋了33個省級行政地區及部分海外漢族群體。PGG.Han不僅提供了漢族人群的精細人群遺傳結構圖譜和可視化等位基因頻率地圖,更重要的是還整合了三個實用性強的在線分析工具;包括祖源推斷(AncestryInference),基因型填補(Genotype Imputation)和全基因組關聯分析(GWAS)。這些分析流程由徐書華研究組設計與開發,由生物醫學大數據中心進行軟件封裝,并首次提供免費公開訪問和使用。用戶可以上傳自己的樣本數據,充分利用數據庫中存儲的漢族自然人群參考數據集進行在線分析,最終得到可供下載的分析報告。所有上傳數據均受到嚴格的保護,同時考慮了非計算生物學背景人員的可操作性,并在持續改善用戶體驗。目前正力圖通過廣泛合作持續納入更多高質量深度測序數據,以及提升該數據庫所依賴的高性能計算分析能力。
該工作由中國科學院馬普計算生物學研究所徐書華研究組高揚(上??萍即髮W)、張超、王曉驥、劉暢、潘雨聞等人,以及生物醫學大數據中心張國慶、袁力赟、凌鋆超等人合作完成,得到了中科院先導專項、國家自然科學基金委、上海市科委和國家重點研發計劃等多項基金的資助。(科技處)
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz829/5580901

圖示:漢族人群基因組數據庫(PGG.Han)功能構架圖