2022年10月16日,國際知名學術期刊Nucleic Acids Research在線發表了復旦大學生命科學學院/人類表型組研究院徐書華教授團隊、中國科學院上海營養與健康研究所張國慶研究員、復旦大學生命科學學院樊少華研究員合作開發的人類基因組結構變異數據庫PGG.SV(https://www.biosino.org/pggsv/),文章題為“PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform”。該數據庫通過收集全球人群的全基因組測序數據,專注于基因組結構變異數據的挖掘和整合,為人類基因組結構變異的研究提供了一個數據獲取、信息查詢和在線分析的綜合平臺。
基因組結構變異(SVs)主要包括基因組上大片段的DNA缺失、插入、片段重復等變異類型,大量研究表明SV與癌癥、自閉癥、神經發育障礙等多種復雜遺傳病有關,近年來在醫學和遺傳學領域中持續受到關注。隨著基因組測序技術的進步和普及,大量的結構變異被不斷發現和研究,一些具有強致病性的結構變異也逐漸得到驗證。研究團隊旨在通過構建一個具有代表性、多樣性的健康人群基因組結構變異數據集,一方面為遺傳病患者的結構變異研究提供可靠的對照樣本,另一方面對變異功能的注釋和預測,也將有效縮小致病性突變的篩選范圍,為相關領域研究者提供有效的指導和幫助。
由于結構變異在不同地區和民族之間存在顯著差異和多樣性,而現有的數據庫和公共數據集各自采用不同分析流程,因此一直缺乏一個具有人群樣本和新一代測序數據代表性的結構變異資源和分析平臺,尤其對東亞人群樣本的覆蓋度嚴重不足。研究團隊整合了大規模的測序數據,包括全球177個代表性地區和族群的6,048個全基因組測序數據,特別是對我國豐富的民族多樣性特征進行了深度分析,首次覆蓋了我國50個少數民族。截至論文發表,數據庫共收錄了584,277個結構變異,并將在未來持續增加。此外,PGG.SV首次納入了三代長讀長(long-reads)測序數據,其在結構變異的檢測中具有更大優勢,特別是在插入序列的檢測和判定方面,其效果顯著優于二代測序技術。先前的大規模結構變異數據庫均基于二代測序或基因芯片數據構建。研究團隊產生和收集了1,030個三代測序基因組,并首次采用三代測序與二代測序結合的方式構建結構變異數據庫,從而大幅提升了結構變異檢測結果的數量和質量。

圖1 PGG.SV數據處理流程示意圖
在數據庫功能上,PGG.SV提供了簡潔友好的查詢功能,提供不同族群結構變異在基因組位置上的精確展示,以及全球各個族群之間的頻率差異等統計信息。利用研究組先前積累的優勢,PGG.SV與徐書華教授團隊此前開發的PGG.SNV等數據庫進行聯動,借助連鎖不平衡和基因組空間位置信息,將單核苷酸變異(SNV)的詳細結果與結構變異相結合,以增強數據多樣性的解析功能。此外,PGG.SV提供了豐富的臨床效應分析和預測分析功能,根據與結構變異存在關聯的基因和調控元件,提供對其潛在表型、功能的預測和富集分析,以及由特定疾病和表型檢索相關結構變異的工具,以便有臨床研究等需求的用戶使用。
最后,PGG.SV還支持豐富的在線分析和可視化功能。一方面,研究團隊提供對用戶提交的結構變異結果的比較和注釋,以便使用者了解自己的目標樣本與數據庫提供的對照樣本之間的差異;另一方面,研究團隊還提供結構變異可視化功能,能夠在人類基因組上檢索用戶提交的DNA序列、展示相關變異的基因組位置,以及提供對變異空間結構變化的精細可視化。

圖2 PGG.SV界面示意圖
總體而言,PGG.SV提供了一個高質量的人群基因組結構變異數據資源,基于新一代測序數據對人類基因組結構變異信息檢測和展示進行了大幅度提升,尤其是首次較為全面地覆蓋了東亞人群和中國人群的結構變異多樣性,并提供相關基因和潛在臨床效應的注釋。此外,該平臺也提供了包括病例對照研究在內的多種在線分析功能,以及人類基因組結構變異的可視化工具。
中國科學院上海營養與健康研究所王亦民、凌鋆超和復旦大學人類表型組研究院龔嬌為本文共同第一作者。徐書華教授、張國慶研究員和樊少華研究員為本文共同通訊作者。該研究工作得到了國家基金委基礎科學中心、國家自然科學基金、中國科學院先導專項、英國皇家學會牛頓基金、人類表型組上海市市級重大專項等基金的資助。
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac905/6761741?login=false