2020年11月19日,Genome Research在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普伙伴計算生物學研究所)邵振研究組的方法學論文“MAnorm2 for quantitatively comparing groups of ChIP-seq samples”,報道了其開發的新一代MAnorm2計算模型。該模型能夠對多樣本ChIP/ATAC-seq數據按照特定標簽分組進行統計建模和組間定量比較,可靠地在樣本組層面鑒定組間顯著差異的ChIP/ATAC-seq信號。
染色質免疫共沉淀測序(ChIP-seq)實驗被廣泛用于刻畫轉錄因子結合和組蛋白修飾的全基因組分布。比較來自不同細胞類型的ChIP-seq樣本是刻畫細胞分化和病變過程中動態轉錄和表觀調控的關鍵基礎。2012年,邵振與張一婧等合作在Genome Biology發表了用于兩個ChIP-seq樣本之間進行一對一定量比較的MAnorm模型。近年來,隨著實驗技術的發展和測序成本的不斷降低,在ChIP-seq樣本組(而非單個樣本)之間進行比較分析已成為越來越常見的研究需求。一方面,研究者會產生同一實驗的多個生物學重復來提高實驗結果的可信度。另一方面,通過將來自不同個體的樣本根據特定標簽(如年齡、性別、患病與否、疾病亞型等)分組進行比較,研究者能夠控制個體差異造成的影響,更可靠地識別與該標簽關聯的差異結合位點。然而,由于ChIP-seq實驗固有的高復雜度和高噪聲水平,以及不同比較場景所特有的技術困難,現階段對多樣本ChIP-seq數據進行分組定量比較仍然是一個巨大的計算方法學挑戰。
在ChIP-seq數據標準化這一步,MAnorm2沿用了MAnorm的核心假設,通過重構其信號強度變換體系,新發展了以參照樣本為基準的多樣本并行ChIP-seq信號標準化流程。進一步,針對多樣本分組比較的需求,MAnorm2搭建了一個理論上適應任意樹狀分組結構的層級化多樣本標準化策略。在完成標準化后,MAnorm2接下來針對每個基因組區域上觀察到的ChIP-seq信號組間差異進行統計檢驗。在通常組內樣本數較少的局限下(2-3個重復本),為了能更準確地衡量每一個基因組區域上的組內樣本間ChIP-seq信號變化水平(within-group variability),MAnorm2設計了一個經驗貝葉斯框架,利用擬合均值-方差曲線來給單個區域的組內變化水平賦予一個先驗分布,并進一步通過平衡先驗和后驗觀測來更準確地估計ChIP-seq信號的組內變化水平,從而提高對組間差異ChIP-seq信號的靈敏度(圖一)。

圖一:(A)在不同基因組區域間擬合均值-方差曲線(mean-variance curve;MVC)。(B)根據不同的統計指標對基因啟動子按照差異H3K4me3 ChIP-seq信號的可能性進行排序,并計算其中差異表達基因(differentially expressed genes;DEGs)啟動子所占的比例。(C)檢查不同類型的基因啟動子上差異H3K4me3的統計顯著性。虛線對應P值為0.05。
與已有的其他經驗貝葉斯方法相比,MAnorm2最大的優勢在于考慮了不同樣本組的組內ChIP-seq信號變化水平可能存在系統性差別。這一情形在正常人和癌癥患者之間的比較中經常出現:由于腫瘤組織或血液樣本本身的異質性以及癌癥亞類型和不同患病階段的多樣性,癌癥樣本組的組內信號變化水平往往顯著高于正常樣本組。為了解決這個問題,MAnorm2通過在建模過程中引入一個方差比率因子,首先把不同樣本組的全局組內信號變化水平修正至一致,然后使用修正后的方差進行均值-方差曲線的擬合和參數估計(圖二)。研究人員將MAnorm2與現有的其他ChIP-seq差異分析工具進行了系統地比較,發現MAnorm2展現了明顯更優越的使用性能,尤其是當進行比較的樣本組擁有明顯不同的組內變化水平時,例如癌癥和正常樣本相比較。

圖二:(A)對來自不同的人的H3K27ac ChIP-seq樣本進行主成分分析。這里LCL(lymphoblastoid cell line)組包含三個源于正常人的B細胞的細胞系;CLL(chronic lymphocytic leukemia)組包含三個源于慢性淋巴細胞白血病患者的B細胞的細胞系。(B)關于來自不同組的均值和未修正的方差的散點圖。(C)關于均值和修正后的方差的散點圖,以及由此進行下一步統計建模。
此外,該模型的應用場景和統計模型具有良好的可擴展性。在正文中,研究人員不僅展示了MAnorm2在ATAC-seq數據差異分析上同樣適用,還將其統計模型擴展到可以同時比較任意多個樣本組,并發現其使用效果優于傳統的ANOVA方法。
該研究由中國科學院上海營養與健康研究所等多家機構合作完成。中科院營養健康所博士后涂世奇為該論文第一作者,邵振研究員為通訊作者。中科院植物生理生態研究所張一婧研究員、美國西南醫學中心徐劍教授和波士頓大學的David J. Waxman教授對該研究工作的提出和完善也做出了重要貢獻。該研究獲得了國家自然科學基金委(31871280 和31701140)、科技部、中科院等機構的資助。
論文鏈接:https://genome.cshlp.org/content/early/2020/11/18/gr.262675.120