
10月31日,在第三屆“先導(dǎo)杯”計(jì)算應(yīng)用大獎(jiǎng)賽全國總決賽中,由來自中科院上海營養(yǎng)與健康研究所的李杰夫、周翰文和胡玥以及來自中科蘇州智能計(jì)算技術(shù)研究院的姚睿捷共同組成的AI4Life團(tuán)隊(duì),將“利用無監(jiān)督學(xué)習(xí)方法探索癌癥發(fā)生的分子機(jī)理”作為參賽項(xiàng)目,獲得了AI for Science賽道全國三等獎(jiǎng)(https://cas-pra.sugon.com/sugon/newsugon/index5.html)。本屆比賽共有來自中科院、北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)的48支團(tuán)隊(duì)激烈角逐,競爭7個(gè)賽道的獎(jiǎng)項(xiàng)。

團(tuán)隊(duì)風(fēng)采:李杰夫,周翰文,姚睿捷,胡玥(從左到右)

以癌癥為代表的復(fù)雜疾病是對人類健康的主要威脅。復(fù)雜疾病具有潛在患者龐大,機(jī)制不明確,缺乏根治的干預(yù)手段等諸多特點(diǎn),且目前已經(jīng)呈現(xiàn)出發(fā)病年輕化的趨勢,是目前生物醫(yī)學(xué)領(lǐng)域的重點(diǎn)問題。基因測序技術(shù)可以為復(fù)雜疾病提供分子層面的信息,但是面臨數(shù)據(jù)規(guī)模增長過快,現(xiàn)有計(jì)算體系難以處理的瓶頸,同時(shí)由于生物體系內(nèi)在的復(fù)雜性,需要利用無監(jiān)督學(xué)習(xí)系統(tǒng)建立不依賴人類已有知識的新的分子規(guī)律發(fā)現(xiàn)模式。
AI4Life團(tuán)隊(duì)使用基于異構(gòu)計(jì)算的轉(zhuǎn)錄組定量算法Paean對癌癥樣本中基因表達(dá)和可變剪接事件進(jìn)行定量,Paean分析單個(gè)樣本的時(shí)間在20秒左右,在多卡條件下可以在1天的時(shí)間內(nèi)完成萬級別癌癥樣本的轉(zhuǎn)錄組分析工作。為了探索復(fù)雜疾病分子機(jī)理,AI4Life團(tuán)隊(duì)基于自編碼器(Autoencoder)與向量量化(vector quantization)的算法設(shè)計(jì)了通用無監(jiān)督學(xué)習(xí)模型DAO(Deep AutOencoder Clustering)。AI4Life團(tuán)隊(duì)使用DAO模型對樣本量近一萬、特征維度超過七萬的泛癌轉(zhuǎn)錄組數(shù)據(jù)集進(jìn)行了聚類分析,基于轉(zhuǎn)錄組特征提出了潛在泛癌分類系統(tǒng),發(fā)現(xiàn)了癌癥不同亞型之間病理特征、分子機(jī)制等表型存在諸多差異,并在獨(dú)立數(shù)據(jù)集上驗(yàn)證了關(guān)鍵結(jié)論。

分析流程示意圖
在工程技術(shù)方面,AI4Life團(tuán)隊(duì)將模型部署在異構(gòu)超算集群上,實(shí)現(xiàn)了面向海量人群測序樣本的復(fù)雜疾病自主學(xué)習(xí)。其中,超算集群硬件系統(tǒng)基于曙光超算平臺和海光DCU,深度學(xué)習(xí)框架采用百度PaddlePaddle,實(shí)現(xiàn)了多機(jī)多卡的分布式學(xué)習(xí),大幅提升了數(shù)據(jù)整合的效率和能效。
本項(xiàng)目構(gòu)建的分析系統(tǒng)可以在單日內(nèi)完成萬級別癌癥數(shù)據(jù)集合的整合理解分析,日后隨著數(shù)據(jù)的持續(xù)積累,該系統(tǒng)可以實(shí)現(xiàn)自我更新、持續(xù)學(xué)習(xí),將發(fā)現(xiàn)更多對精準(zhǔn)醫(yī)學(xué)具有應(yīng)用價(jià)值的分子特征,并將規(guī)律發(fā)現(xiàn)和分子分型的對象由癌癥拓展到包括糖尿病、心血管疾病、痛風(fēng)等其他復(fù)雜疾病。
本屆先導(dǎo)杯由企業(yè)、產(chǎn)業(yè)聯(lián)盟、高校共創(chuàng),形成了“產(chǎn)學(xué)研用”一體化的合作方式,吸引了國內(nèi)外近千名選手積極報(bào)名,參賽隊(duì)伍從學(xué)生群體、科研人員,擴(kuò)展到金融、半導(dǎo)體、通信等更多領(lǐng)域。
本工作由中科院上海營養(yǎng)與健康研究所王澤峰老師,張國慶老師和中科蘇州智能計(jì)算技術(shù)研究院張佩珩老師聯(lián)合指導(dǎo)。