国产盗摄XXXX视频XXXⅩ_无码国内精品久久综合88_一区二区三区四区五区六区爽爽爽爽爽爽爽_欧美日韩亚洲一区_人妻被黑人_黄色一片一区二区_成人国产av精品影视亚洲午夜福利一区二区三区_韩国一级A片免费视频观看_夜夜爽爽爽_一级aⅴ勉费看_日韩按摩人妻AV在线_伊人久久日本_国产亚洲校园宿舍av_亚洲综合中文网_av色综合久久天堂av色综合在 ,亚洲国产免费第一区_无码国产一级毛片久久国产精选精华精品_激情五月开心综合亚洲_国产黄色大片儿_黄动漫视频在线观看_91亚洲精品视频在线观看_国产一级二级三级_日韩专区高清国产精品一区二区网址_亚洲高清自拍_加勒比日韩精品_亚洲精品无码区在线观看。_欧美色线_亚洲高清永久_少妇精品一区二区三区免费_狠狠狠干一区二区 ,亚洲第一区久久_色综合天天综合网国产成人_www.-级毛片线天内射视视_久久久不卡视频_日本欧美国产一区二区三区_网友偷拍一区二区_亚洲欧美第一视频午夜在线一区二区三区_亚洲最新av在线国产一区二区字幕_国产高清美女一级a毛片久久_日韩一级av 片_男男真人互干免费视频_国产一区二区传媒_日日噜噜夜夜爽爽_欧美中文日韩一区二区三区

科學(xué)研究

科研進展

您當前的位置 :

首頁 > 科學(xué)研究 > 科研進展

營養(yǎng)與健康所生物醫(yī)學(xué)大數(shù)據(jù)中心合作開發(fā)RNA基礎(chǔ)語言模型LAMAR

發(fā)布時間: 2025-09-26

【字體：大中小】

9月24日，國際學(xué)術(shù)期刊Genome Biology在線發(fā)表了中國科學(xué)院上海營養(yǎng)與健康研究所生物醫(yī)學(xué)大數(shù)據(jù)中心張國慶研究員與南方科技大學(xué)生命科學(xué)學(xué)院系統(tǒng)生物學(xué)系王澤峰講席教授團隊的合作論文“A foundation language model to decipher diverse regulation of RNAs”。該研究構(gòu)建了一種基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型，可微調(diào)預(yù)測pre-mRNA的剪接位點、mRNA的翻譯效率、mRNA的降解率和內(nèi)部核糖體進入位點（Internal Ribosome Entry Site，IRES）等多個RNA調(diào)控相關(guān)的下游任務(wù)，揭示了RNA中調(diào)控元件的序列特征并鑒定新型翻譯調(diào)控元件，為理解RNA調(diào)控機制和優(yōu)化RNA的生物醫(yī)學(xué)應(yīng)用提供了新工具和新思路。

在真核生物中，RNA轉(zhuǎn)錄、剪接、翻譯和降解等生物學(xué)過程受到順式調(diào)控元件、RNA結(jié)構(gòu)和反式作用因子的嚴格調(diào)控。解析RNA的多層次調(diào)控對于研究基因表達分子機制和設(shè)計RNA藥物具有重要意義。然而由于調(diào)控的復(fù)雜和數(shù)據(jù)量的不足，目前構(gòu)建RNA調(diào)控的預(yù)測模型仍然面臨挑戰(zhàn)。

為了突破上述瓶頸，研究團隊設(shè)計并訓(xùn)練了基于多層transformer編碼器架構(gòu)的RNA語言模型LAMAR。研究首先下載處理約1500萬條哺乳動物和病毒的基因和轉(zhuǎn)錄本序列，通過掩碼學(xué)習(xí)進行無監(jiān)督預(yù)訓(xùn)練，預(yù)先提取RNA的序列特征；之后使用含有標簽的數(shù)據(jù)集微調(diào)模型，實現(xiàn)RNA調(diào)控高效預(yù)測。

研究測試了LAMAR模型在多個下游任務(wù)中的性能。其中，LAMAR模型在mRNA翻譯效率和降解率預(yù)測任務(wù)中分別取得0.66和0.65的Spearman相關(guān)系數(shù)指標，相比最優(yōu)基線模型提升7%和8%。另外，LAMAR模型在剪接位點預(yù)測任務(wù)中取得0.96的PR-AUC指標，與最優(yōu)基線模型SpliceAI的性能相當。

研究還使用公開數(shù)據(jù)集微調(diào)模型預(yù)測病毒和真核IRES，取得0.985的AUROC指標。研究進一步預(yù)測RNA病毒基因組中潛在的新IRES，并在多個細胞系中測試其中305條序列驅(qū)動環(huán)形RNA翻譯的效率。研究發(fā)現(xiàn)序列的預(yù)測概率與翻譯活性呈正相關(guān)，提示模型模擬篩選新型調(diào)控元件的能力。

目前，LAMAR模型已上傳至Github（https://github.com/rnasys/LAMAR），供科研人員預(yù)測pre-mRNA的剪接位點、mRNA翻譯效率、降解率和IRES，或使用自己的數(shù)據(jù)集微調(diào)模型。

中國科學(xué)院上海營養(yǎng)與健康研究所張國慶研究員、南方科技大學(xué)生命科學(xué)學(xué)院王澤峰教授、美國北卡羅萊納大學(xué)教堂山分校胡玥博士后為論文共同通訊作者。中國科學(xué)院上海營養(yǎng)與健康研究所博士研究生周翰文、美國北卡羅萊納大學(xué)教堂山分校胡玥博士后為論文共同第一作者。該研究得到了科技部國家重點研發(fā)計劃、國家自然科學(xué)基金、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項（B類）、上海市科技創(chuàng)新行動計劃、上海市市級科技重大專項等項目的資助。

論文鏈接：https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03752-x

圖1：LAMAR模型架構(gòu)及研究流程圖：模型首先使用大量基因和轉(zhuǎn)錄本序列進行無監(jiān)督預(yù)訓(xùn)練，再使用含有標簽的數(shù)據(jù)集進行微調(diào)解決RNA調(diào)控下游任務(wù)。

推送單元：生物醫(yī)學(xué)大數(shù)據(jù)中心、科技規(guī)劃與任務(wù)處

下一篇：營養(yǎng)與健康所生物醫(yī)學(xué)大數(shù)據(jù)中心發(fā)布消化系統(tǒng)細胞標志物庫

附件：