9月24日,國際學(xué)術(shù)期刊Genome Biology在線發(fā)表了中國科學(xué)院上海營養(yǎng)與健康研究所生物醫(yī)學(xué)大數(shù)據(jù)中心張國慶研究員與南方科技大學(xué)生命科學(xué)學(xué)院系統(tǒng)生物學(xué)系王澤峰講席教授團隊的合作論文“A foundation language model to decipher diverse regulation of RNAs”。該研究構(gòu)建了一種基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,可微調(diào)預(yù)測pre-mRNA的剪接位點、mRNA的翻譯效率、mRNA的降解率和內(nèi)部核糖體進入位點(Internal Ribosome Entry Site,IRES)等多個RNA調(diào)控相關(guān)的下游任務(wù),揭示了RNA中調(diào)控元件的序列特征并鑒定新型翻譯調(diào)控元件,為理解RNA調(diào)控機制和優(yōu)化RNA的生物醫(yī)學(xué)應(yīng)用提供了新工具和新思路。
在真核生物中,RNA轉(zhuǎn)錄、剪接、翻譯和降解等生物學(xué)過程受到順式調(diào)控元件、RNA結(jié)構(gòu)和反式作用因子的嚴格調(diào)控。解析RNA的多層次調(diào)控對于研究基因表達分子機制和設(shè)計RNA藥物具有重要意義。然而由于調(diào)控的復(fù)雜和數(shù)據(jù)量的不足,目前構(gòu)建RNA調(diào)控的預(yù)測模型仍然面臨挑戰(zhàn)。
為了突破上述瓶頸,研究團隊設(shè)計并訓(xùn)練了基于多層transformer編碼器架構(gòu)的RNA語言模型LAMAR。研究首先下載處理約1500萬條哺乳動物和病毒的基因和轉(zhuǎn)錄本序列,通過掩碼學(xué)習(xí)進行無監(jiān)督預(yù)訓(xùn)練,預(yù)先提取RNA的序列特征;之后使用含有標簽的數(shù)據(jù)集微調(diào)模型,實現(xiàn)RNA調(diào)控高效預(yù)測。
研究測試了LAMAR模型在多個下游任務(wù)中的性能。其中,LAMAR模型在mRNA翻譯效率和降解率預(yù)測任務(wù)中分別取得0.66和0.65的Spearman相關(guān)系數(shù)指標,相比最優(yōu)基線模型提升7%和8%。另外,LAMAR模型在剪接位點預(yù)測任務(wù)中取得0.96的PR-AUC指標,與最優(yōu)基線模型SpliceAI的性能相當。
研究還使用公開數(shù)據(jù)集微調(diào)模型預(yù)測病毒和真核IRES,取得0.985的AUROC指標。研究進一步預(yù)測RNA病毒基因組中潛在的新IRES,并在多個細胞系中測試其中305條序列驅(qū)動環(huán)形RNA翻譯的效率。研究發(fā)現(xiàn)序列的預(yù)測概率與翻譯活性呈正相關(guān),提示模型模擬篩選新型調(diào)控元件的能力。
目前,LAMAR模型已上傳至Github(https://github.com/rnasys/LAMAR),供科研人員預(yù)測pre-mRNA的剪接位點、mRNA翻譯效率、降解率和IRES,或使用自己的數(shù)據(jù)集微調(diào)模型。
中國科學(xué)院上海營養(yǎng)與健康研究所張國慶研究員、南方科技大學(xué)生命科學(xué)學(xué)院王澤峰教授、美國北卡羅萊納大學(xué)教堂山分校胡玥博士后為論文共同通訊作者。中國科學(xué)院上海營養(yǎng)與健康研究所博士研究生周翰文、美國北卡羅萊納大學(xué)教堂山分校胡玥博士后為論文共同第一作者。該研究得到了科技部國家重點研發(fā)計劃、國家自然科學(xué)基金、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(B類)、上海市科技創(chuàng)新行動計劃、上海市市級科技重大專項等項目的資助。
論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03752-x

圖1:LAMAR模型架構(gòu)及研究流程圖:模型首先使用大量基因和轉(zhuǎn)錄本序列進行無監(jiān)督預(yù)訓(xùn)練,再使用含有標簽的數(shù)據(jù)集進行微調(diào)解決RNA調(diào)控下游任務(wù)。
推送單元:生物醫(yī)學(xué)大數(shù)據(jù)中心、科技規(guī)劃與任務(wù)處