上科大信息學院鄭杰課題組開發(fā)新型AI模型助力抗癌藥物靶點發(fā)現(xiàn)

上?萍即髮W
2021-8-22 11:10:24 文/邵明 圖/林一鳴
信息學院鄭杰課題組與合作者提出了基于知識圖譜和圖神經(jīng)網(wǎng)絡(luò)的新型人工智能模型KG4SL,在合成致死(synthetic lethality,簡稱SL)基因關(guān)系預測問題上取得突破,有望加速癌癥藥物靶點發(fā)現(xiàn),促進AI制藥技術(shù)的發(fā)展。該成果在近期召開的第29屆分子生物學智能系統(tǒng)會議和第20屆歐洲計算生物學會議(The 29th Conference on Intelligent Systems for Molecular Biology and 20th European Conference on Computational Biology, ISMB/ECCB)作為正式論文發(fā)表,題為“KG4SL: Knowledge Graph Neural Network for Synthetic Lethality Prediction in Human Cancers”,鄭杰教授作口頭報告。該論文已被生物信息學領(lǐng)域核心期刊《生物信息學》(Bioinformatics)的ISMB/ECCB 2021會議特刊收錄。
圖. 期刊論文截圖
復雜的生物系統(tǒng)通過基因相互作用的形式進行運作。合成致死是基因之間相互作用的一種關(guān)系。如果兩個基因同時失活會導致細胞死亡,而只有其中一個基因失活則不會對細胞生存造成影響,那么這兩個基因之間就存在“合成致死”關(guān)系。合成致死基因?qū)κ菨撛诘目拱┧幬锇悬c,因為當發(fā)現(xiàn)腫瘤中存在特定基因失活時,那么用藥物來抑制與該失活基因有合成致死關(guān)系的“隊友”基因,就可以特異性地殺死癌細胞,而不危害健康細胞。但是通過濕實驗的方法來篩選SL基因關(guān)系存在成本高、批次效應(yīng)和脫靶等技術(shù)局限,而現(xiàn)有的計算預測SL的方法忽略了基因?qū)Ρ澈蠊餐纳飳W機制。因此鄭杰課題組與合作者提出了基于圖神經(jīng)網(wǎng)絡(luò)的KG4SL模型,用知識圖譜捕捉不同的SL基因?qū)Ρ澈笙嗤ǖ纳飳W機制,以獲得更好的預測性能和生物學解釋。
圖. KG4SL模型框架。模型可分為三個模塊,分別是Gene-specific weighted subgraph、Aggregation和Score computation。
(1) Gene-specific weighted subgraph:對給定的SL基因?qū)闹R圖譜中構(gòu)造帶權(quán)重子圖。
(2) Aggregation:對于每個SL基因?qū)Γ瑥脑撟訄D中選擇與該基因直接相連的基因節(jié)點和邊關(guān)系。基于生物信息可以在所提取的子圖節(jié)點之間流動的假設(shè),聚合子圖中每個基因節(jié)點的鄰居節(jié)點信息從而構(gòu)成該基因的特征表示。
(3) Score computation:通過將sigmoid函數(shù)作用于兩個基因特征表示的內(nèi)積結(jié)果,得到給定SL基因?qū)χg合成致死關(guān)系的概率。
通過在圖神經(jīng)網(wǎng)絡(luò)中加入一個合適的知識圖譜,KG4SL考慮了知識圖譜上所存儲的與基因之間相互作用的生物機制相關(guān)的信息,克服了現(xiàn)有方法假設(shè)每一對SL基因都是一個獨立樣本的局限性。KG4SL模型所使用的知識圖譜來自鄭杰教授團隊開發(fā)的一個含有合成致死關(guān)系的綜合數(shù)據(jù)庫SynLethDB (http://synlethdb.sist.shanghaitech.edu.cn/v2/)。與所有基本模型相比,KG4SL模型有顯著的性能提高。此外,KG4SL模型比其他三種僅依賴知識圖譜或合成致死數(shù)據(jù)或只是將它們簡單結(jié)合的模型有更強的辨別力。
圖. SL關(guān)系可視化。TransE模型僅利用知識圖譜信息,GCN模型僅利用SL交互信息,TransE+GCN模型結(jié)合了知識圖譜信息和SL交互信息。圖中橘色點表示SL關(guān)系,藍色的點表示非SL關(guān)系。這些圖說明KG4SL模型對SL關(guān)系和非SL關(guān)系有更強的鑒別能力。
KG4SL模型第一次將知識圖譜引入到SL基因關(guān)系預測這個問題,并取得良好的效果。這說明基于圖神經(jīng)網(wǎng)絡(luò)的深度學習模型,能通過結(jié)合知識和數(shù)據(jù)來更好地解決生物醫(yī)藥領(lǐng)域的復雜問題。新預測的SL基因?qū)椭飳W家更快地篩選到新的抗癌藥物靶點,實現(xiàn)用AI技術(shù)加速新藥研發(fā)的進程。此外,KG4SL有望通過知識圖譜來揭示SL背后的生物學機理,使深度學習模型具有更好的可解釋性,促進生物學知識的發(fā)現(xiàn)。
此項研究工作主要由上海科技大學信息學院智能醫(yī)學信息研究中心鄭杰課題組完成,上?萍即髮W是第一完成單位。信息學院2020級碩士生王詩珂和徐凡為共同第一作者,其他學生作者包括信息學院博士生張可和碩士生汪潔,以及生命學院本科生李云洋,他們均在鄭杰課題組學習和研究。新加坡南洋理工大學資深研究科學家劉勇參與了實驗和理論工作。信息學院副教授鄭杰和新加坡科技研究局資深科學家吳敏為共同通訊作者。
ISMB/ECCB是生物信息學領(lǐng)域的旗艦會議,其論文代表全球最前沿的生物信息學研究成果,評審嚴格,競爭激烈。在今年投稿的289篇論文里,僅有55篇被選中,接收率僅為19%。
論文鏈接(點擊閱讀原文獲取更多內(nèi)容):
https://academic.網(wǎng)址未加載/bioinformatics/article/37/
Supplement_1/i418/6319703
圖 文 鄭 杰
排 版 張麗敏
編 輯 高正純
高 瑄
今天“分享”“點贊”“在看”了嗎?