2022年2月28日,Genome Biology在線發(fā)表了中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所邵振研究組題為“HyperChIP: identification of hypervariable signals across ChIP-seq or ATAC-seq samples”的方法學(xué)論文,報(bào)道了其開(kāi)發(fā)的HyperChIP計(jì)算模型。它能對(duì)多個(gè)ChIP/ATAC-seq樣本間信號(hào)強(qiáng)度差異進(jìn)行統(tǒng)計(jì)建模,識(shí)別高變信號(hào)基因組區(qū)域(hypervariable regions,HVRs);一系列下游分析表明,這些表觀調(diào)控信號(hào)樣本間差異顯著高于背景模型的位點(diǎn)可有效用于揭示被比較樣本集的宏觀異質(zhì)性結(jié)構(gòu)(疾病亞型或進(jìn)程、組織分化階段、種群遺傳背景等)及其上游調(diào)控機(jī)制。
真實(shí)人群尤其是癌癥等慢性疾病病人在基因組、轉(zhuǎn)錄組等很多層面表現(xiàn)出較高的異質(zhì)性。它們緊密聯(lián)系著疾病臨床表現(xiàn)等個(gè)體表型差異。但由于表觀組ChIP-seq和ATAC-seq數(shù)據(jù)跨樣本定量比較還存在許多公認(rèn)難題,尚未有能通過(guò)多樣本統(tǒng)計(jì)比較來(lái)識(shí)別高異質(zhì)性表觀調(diào)控位點(diǎn)的完整計(jì)算模型被發(fā)表,造成很多相關(guān)研究只能采用一些經(jīng)驗(yàn)方法。但是,這些經(jīng)驗(yàn)分析方法還存在易受技術(shù)因素影響和缺乏統(tǒng)計(jì)顯著性判據(jù)等缺陷,成為制約疾病和正常人群表觀組異質(zhì)性精準(zhǔn)解讀的一個(gè)關(guān)鍵技術(shù)瓶頸。
針對(duì)這一點(diǎn),HyperChIP提出使用擬合的ChIP/ATAC-seq信號(hào)強(qiáng)度均值-方差關(guān)系來(lái)對(duì)每個(gè)位點(diǎn)的觀測(cè)信號(hào)方差進(jìn)行標(biāo)度,并以基因表達(dá)數(shù)據(jù)為參照,指出相比于各種經(jīng)驗(yàn)統(tǒng)計(jì)指標(biāo),上述方法獲得的標(biāo)度方差(scaled variance)能更好地衡量每個(gè)位點(diǎn)表觀調(diào)控信號(hào)的樣本間異質(zhì)性水平(圖A) ;然后,在評(píng)估其統(tǒng)計(jì)顯著性時(shí),引入?yún)^(qū)域篩選(subset selection)和縮尾處理(winsorization)等手段來(lái)控制潛藏真陽(yáng)性位點(diǎn)對(duì)參數(shù)估計(jì)的影響,顯著改善了HVR識(shí)別的統(tǒng)計(jì)功效,實(shí)現(xiàn)對(duì)被比較樣本間表觀組異質(zhì)性的完整統(tǒng)計(jì)刻畫(圖B)。
將HyperChIP應(yīng)用于42例肺腺癌病人腫瘤的H3K27ac ChIP-seq數(shù)據(jù),發(fā)現(xiàn)在識(shí)別的HVRs中,很多位點(diǎn)的H3K27ac水平與腫瘤的臨床診斷階段有較強(qiáng)的關(guān)聯(lián)。另一方面,應(yīng)用它分析由數(shù)百例TCGA腫瘤樣本生成的大型pan-cancer ATAC-seq數(shù)據(jù)集,發(fā)現(xiàn)基于所得HVRs能較好地將不同癌癥類型的樣本分開(kāi)。其中一些組織來(lái)源或細(xì)胞形態(tài)相近而聚在一起的癌癥樣本,被歸類定義為四個(gè)癌癥超類型(super class),即腦部腫瘤、消化道腺癌、腎癌和鱗狀細(xì)胞癌。進(jìn)一步,通過(guò)構(gòu)建轉(zhuǎn)錄因子活性(TF activity)打分模型,發(fā)現(xiàn)了大量被特定癌癥超家族中樣本所共有的轉(zhuǎn)錄調(diào)控因子(圖C)。它們中很多被基因表達(dá)數(shù)據(jù)和其它研究結(jié)果支持。例如,TP63被發(fā)現(xiàn)在鱗細(xì)胞癌樣本間具有普遍較高的轉(zhuǎn)錄因子活性,而很多研究已經(jīng)指出它是一個(gè)泛鱗癌致癌因子。
此外,將HyperChIP應(yīng)用于正常組織ChIP/ATAC-seq數(shù)據(jù)也能獲得有價(jià)值的發(fā)現(xiàn)。例如,應(yīng)用它比較著床前不同時(shí)間點(diǎn)的小鼠胚胎ATAC-seq數(shù)據(jù),對(duì)所得的HVRs進(jìn)行主成分分析,發(fā)現(xiàn)第一主成分指征了胚胎的不同發(fā)育階段;進(jìn)一步結(jié)合轉(zhuǎn)錄因子活性分析,可有效發(fā)掘出不同階段所特異的轉(zhuǎn)錄調(diào)控因子。另一方面,應(yīng)用它比較十余個(gè)不同人類個(gè)體的淋巴母細(xì)胞系CTCF ChIP-seq數(shù)據(jù),對(duì)所得的HVRs進(jìn)行主成分分析,發(fā)現(xiàn)能很好地將樣本按個(gè)體所屬種群分開(kāi)(圖D)。
中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所博士生陳浩杰和博士后涂世奇為該論文共同第一作者,邵振研究員和涂世奇為共同通訊作者。復(fù)旦大學(xué)生命科學(xué)學(xué)院張一婧研究員、復(fù)旦大學(xué)附屬腫瘤醫(yī)院孫藝華主任等對(duì)該工作的提出和完善也做出了重要貢獻(xiàn)。該工作獲得了國(guó)家自然科學(xué)基金委,科技部,中國(guó)科學(xué)院的資助。上述研究所使用的所有數(shù)據(jù)均來(lái)自已公開(kāi)發(fā)表數(shù)據(jù)。

圖:(A) HyperChIP模型以校正了均值-方差關(guān)系的標(biāo)度方差(scaled variance)為統(tǒng)計(jì)指標(biāo), 使不同信號(hào)強(qiáng)度水平的基因組區(qū)域之間的信號(hào)差異水平更加可比。(B)通過(guò)引入?yún)^(qū)域篩選和縮尾處理等手段來(lái)控制潛藏真陽(yáng)性對(duì)參數(shù)估計(jì)的影響,顯著改善了HVR識(shí)別的統(tǒng)計(jì)功效。(C)將HyperChIP應(yīng)用于TCGA pan-cancer ATAC-seq數(shù)據(jù)集,基于所得HVRs將部分組織來(lái)源或細(xì)胞形態(tài)相近的樣本歸類定義為四個(gè)癌癥超類型(super class),即腦部腫瘤(Brain cancer)、腎癌(Kidney carcinoma)、消化道腺癌(Digestive adenocarcinoma)和鱗狀細(xì)胞癌(Squamous cell carcinoma);下游的轉(zhuǎn)錄因子活性打分分析,發(fā)現(xiàn)了大量被每個(gè)超家族中腫瘤樣本所共有的轉(zhuǎn)錄調(diào)控因子。(D)比較十余個(gè)不同人類個(gè)體的淋巴母細(xì)胞系CTCF ChIP-seq數(shù)據(jù),發(fā)現(xiàn)基于所得HVRs能很好地區(qū)分不同種群個(gè)體的樣本。
論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02627-9