首頁>資訊 >
對話百圖生科首席AI科學(xué)家宋樂博士:“xTrimo”生命科學(xué)AI大模型,不應(yīng)止于加速藥物研發(fā) 2023-03-15 08:57:07  來源:36氪

文|沈筱

編輯|王與桐

ChatGPT的推出向世界展示了大型語言模型的魅力。這一魅力正是源于大模型泛化能力的提升,使得模型具備完成對話、文本生成、翻譯等多種任務(wù)的能力。同時,大模型經(jīng)過微調(diào)之后即可得到專業(yè)領(lǐng)域模型的能力逐漸顯現(xiàn),AI大模型在各個領(lǐng)域的應(yīng)用潛力正在被激發(fā)。


(相關(guān)資料圖)

其中,生命科學(xué)是一個早已被關(guān)注,但似乎不那么“吸睛”的領(lǐng)域。然而,事實(shí)上,其或許是AI大模型最重要的應(yīng)用領(lǐng)域之一,并將有望同時實(shí)現(xiàn)商業(yè)價值和社會價值創(chuàng)造。

DeepMind早在2018年就推出了能夠預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型。在2022年,該系列模型已經(jīng)預(yù)測了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu)。Meta也于2022年推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測模型ESMFold。

同樣,在百圖生科看來,得益于數(shù)據(jù)、算力以及模型的快速發(fā)展,人工智能已經(jīng)進(jìn)入了大模型的黃金時代。尤其是生命科學(xué)領(lǐng)域積累了海量的數(shù)據(jù),而這些數(shù)據(jù)需要有特定的超大模型來加以利用,其價值才能得到激活。百圖生科認(rèn)為,基于大模型,這些數(shù)據(jù)將在藥物研發(fā)領(lǐng)域有所可為。

也正是在這樣的背景下,百圖生科從2020年創(chuàng)立之初,就開始搭建“xTrimo”生命科學(xué)大模型體系,旨在結(jié)合前沿AI和生物技術(shù),構(gòu)建高通量干濕閉環(huán)的生物計算引擎,建模蛋白質(zhì)、免疫細(xì)胞、免疫系統(tǒng)的復(fù)雜規(guī)律,從而開發(fā)全新的蛋白質(zhì)藥物,重編程免疫系統(tǒng)、治療數(shù)十種免疫相關(guān)疾病。

具體來講,“xTrimo”生命科學(xué)大模型體系能創(chuàng)造何種價值,以及如何實(shí)現(xiàn)價值創(chuàng)造?為了解答上述問題,3月3日下午百圖生科CTO、首席 AI 科學(xué)家宋樂博士與36氪等多家媒體進(jìn)行了交流。

百圖生科CTO、首席 AI 科學(xué)家宋樂博士

據(jù)介紹,百圖生科推出的“xTrimo”(Cross-modal Transformer Representation of Interactome and Multi-Omics)是全球首個、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系。該體系由千億參數(shù)的預(yù)訓(xùn)練模型和多個下游任務(wù)模型組成。模型采取4層嵌套結(jié)構(gòu)的設(shè)計邏輯,能夠?qū)蝹€蛋白質(zhì)、細(xì)胞中蛋白質(zhì)相互作用、細(xì)胞本身,以及細(xì)胞系統(tǒng)建模。

以下是在百圖生科交流會訪談實(shí)錄基礎(chǔ)上,經(jīng)整理、編輯而成:

01 生命科學(xué)領(lǐng)域AI大模型的用武之地

盡管一款新藥的成功研發(fā)能帶來高回報,但也意味著其研發(fā)過程具有高風(fēng)險的特征。同時,新藥研發(fā)通常面臨周期長、投入資金成本高、技術(shù)難度大的問題,以至于在生物醫(yī)藥領(lǐng)域中一直有著新藥研發(fā)“雙十定律”或“反摩爾定律”的說法。也就是說,一般情況下,需要投入10億美元,花費(fèi)超過10年時間,才有可能成功研發(fā)一款新藥。

而靶點(diǎn)發(fā)現(xiàn)、化合物合成和篩選是新藥研發(fā)的關(guān)鍵環(huán)節(jié)。在百圖生科看來,AI大模型的價值就在于,有望實(shí)現(xiàn)上述過程效率和效果的雙重提升。

一是基于模型的預(yù)測能力,研發(fā)人員可以更快速地發(fā)現(xiàn)新的蛋白質(zhì)、新的細(xì)胞形態(tài),探索新的靶點(diǎn)和藥物設(shè)計方向。

生物進(jìn)化是在多層次上經(jīng)歷自然選擇的結(jié)果,包括蛋白質(zhì)序列層面、蛋白質(zhì)互相作用層面、細(xì)胞里基因表達(dá)層面。這些結(jié)果都不是隨機(jī)的。通過使用包含上述信息的數(shù)據(jù)進(jìn)行訓(xùn)練,大模型在一定程度上能夠模擬生物進(jìn)化的過程,進(jìn)而具備預(yù)測能力。宋樂博士指出:“盡管這些生物學(xué)領(lǐng)域的數(shù)據(jù)在過去的十年中呈現(xiàn)出爆發(fā)式增長,但小工具難以實(shí)現(xiàn)數(shù)據(jù)的挖掘和應(yīng)用?!?/p>

二是通過提升化合物合成和篩選的準(zhǔn)確率及可靠性,降低后續(xù)試驗迭代次數(shù),減少試錯成本,進(jìn)而提高新藥研發(fā)前端進(jìn)程的效率。

在通用的預(yù)訓(xùn)練模型基礎(chǔ)上,僅需更少的數(shù)據(jù)就能得到足夠準(zhǔn)確的下游任務(wù)模型。這些模型預(yù)測出的結(jié)果再用于實(shí)驗中,成功率會更高,所需的實(shí)驗次數(shù)和閉環(huán)迭代的次數(shù)更少。宋樂博士表示,模型預(yù)測準(zhǔn)確高的時候,甚至可以省去不必要的實(shí)驗環(huán)節(jié),節(jié)省實(shí)驗開支。

另外,通過事先在模型中考慮到藥物設(shè)計最終需要關(guān)注的因素,比如毒性、代謝等問題,基于模型結(jié)果設(shè)計出來的藥物在臨床試驗階段的通過率有望得到提升。這樣一來也間接提高了臨床階段的效率。

據(jù)介紹,百圖生科構(gòu)建“xTrimo”大模型體系,其目的就是探索從蛋白到復(fù)雜生物體的進(jìn)化規(guī)律,并基于此針對性生成滿足特殊需求的蛋白,以蛋白生成和與生物體對話的方式,加速人工設(shè)計蛋白進(jìn)化的速度,從而解決生命科學(xué)行業(yè)的痛點(diǎn)問題。

在預(yù)訓(xùn)練階段,百圖生科融合了理解與生成兩大訓(xùn)練模式,從億級跨模態(tài)生物數(shù)據(jù)訓(xùn)練通用蛋白質(zhì)及細(xì)胞表征預(yù)訓(xùn)練模型,并結(jié)合AutoML加速尋找最優(yōu)應(yīng)用模型架構(gòu),適配多個生物計算任務(wù)。在此基礎(chǔ)上,“xTrimo”體系能夠表征單體蛋白質(zhì)、蛋白質(zhì)相互作用、免疫細(xì)胞、免疫系統(tǒng)等多層次生物問題,理解生物數(shù)據(jù)之間關(guān)聯(lián)性。

截止目前,“xTrimo”大模型已經(jīng)在蛋白結(jié)構(gòu)預(yù)測、抗體序列生成、細(xì)胞表征等問題上實(shí)現(xiàn)SOTA,并在細(xì)胞功能預(yù)測、denovo藥物設(shè)計上取得了進(jìn)展。百圖生科現(xiàn)有多個AI藥物管線在Lead優(yōu)化階段,同時已與多個行業(yè)伙伴圍繞GCPR、ion channel等難成藥靶點(diǎn)的大分子藥物設(shè)計問題展開合作。

02不止燒錢,訓(xùn)練數(shù)據(jù)也是關(guān)鍵

想要在更少數(shù)據(jù)的基礎(chǔ)上構(gòu)建更準(zhǔn)確的下游任務(wù)模型,就意味著需要底層大模型具有很好的表征或通用能力。這就要求使用更多的數(shù)據(jù)對底層大模型進(jìn)行訓(xùn)練,其背后的算力成本之高可想而知。

百圖生科指出,訓(xùn)練一個千億級的大模型,可能需要上千個GPU,運(yùn)行3到5個月,所需的數(shù)據(jù)量也是TB Trillion級別的。為此,百圖生科與百度云聯(lián)合構(gòu)建了異構(gòu)的生物超算平臺,支持動態(tài)獲取高達(dá)幾千到幾萬個GPU,以及相應(yīng)的CPU資源。經(jīng)粗略估算,每年對類似xTrimo這樣級別的大模型進(jìn)行幾次訓(xùn)練,需要在計算資源方面花費(fèi)上億元。

而除了算力投入,高質(zhì)量數(shù)據(jù)的挖掘和利用也是百圖生科打磨大模型需要解決的關(guān)鍵問題。宋樂博士表示,數(shù)據(jù)的準(zhǔn)確度或質(zhì)量會對模型表現(xiàn)造成直接影響,對下游任務(wù)來講更是如此。例如,想知道設(shè)計的抗體和抗原之間親和力的強(qiáng)弱,只有在預(yù)測相對準(zhǔn)確的情況下,才能夠挑選到一個比較好的抗體。

然而,在百圖生科看來,盡管現(xiàn)有生物學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)相當(dāng)豐富,但由于數(shù)據(jù)來源于不同的技術(shù)和方法,呈現(xiàn)出跨模態(tài)的特征,在數(shù)據(jù)挖掘和利用方面仍然存在兩個挑戰(zhàn)。

一是生物數(shù)據(jù)的不一致性和噪聲問題。為了確保數(shù)據(jù)的質(zhì)量和一致性,需要采用合適的算法和工具進(jìn)行數(shù)據(jù)預(yù)處理和清洗,來解決不同技術(shù)和方法造成的數(shù)據(jù)質(zhì)量和信噪比不同的問題。

二是跨模態(tài)數(shù)據(jù)的集成和分析的復(fù)雜性。生物數(shù)據(jù)具有多模態(tài)、多尺度和多維度的特點(diǎn),通常需要跨學(xué)科的合作,利用專業(yè)技能和知識來處理和分析這些數(shù)據(jù)。

也就是說,在數(shù)據(jù)收集、整理方面,一方面,需要保障數(shù)據(jù)的準(zhǔn)確度和可靠性;另一方面需要找到數(shù)據(jù)對應(yīng)關(guān)系,將蛋白質(zhì)相互作用,單細(xì)胞數(shù)據(jù)都集成到統(tǒng)一的數(shù)據(jù)庫里,才能系統(tǒng)性地利用好關(guān)聯(lián)數(shù)據(jù)。

為此,百圖生科針對公開數(shù)據(jù)進(jìn)行了精細(xì)的對齊工作,并以內(nèi)部實(shí)驗室數(shù)據(jù)為高質(zhì)量數(shù)據(jù)的補(bǔ)充。

對來自于公開領(lǐng)域的數(shù)據(jù),百圖生科的生信工程師會基于自有實(shí)驗體系,重新測量、評估數(shù)據(jù),以驗證公開數(shù)據(jù)之間的相關(guān)性或準(zhǔn)確率。測量結(jié)果將影響模型訓(xùn)練時對數(shù)據(jù)的使用權(quán)重。同時,為了百圖生科圍繞數(shù)據(jù)對應(yīng)關(guān)系的建立進(jìn)行了探索,花費(fèi)了一年的時間實(shí)現(xiàn)了公開數(shù)據(jù)的對齊。具體來說,包括將蛋白質(zhì)與基因配對,將相互作用對應(yīng)的兩個基因或蛋白質(zhì)進(jìn)行關(guān)聯(lián)等。

在內(nèi)部數(shù)據(jù)獲取方面,百圖生科規(guī)劃、建立了高通量實(shí)驗驗證體系,以實(shí)現(xiàn)基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)。以組學(xué)實(shí)驗室為例,百圖生科針對10余種不同來源的組織進(jìn)行樣本處理,每年可采集1000萬個單細(xì)胞測序數(shù)據(jù)。

目前,來自實(shí)驗室的私域數(shù)據(jù)占比約為10%。而這些私域數(shù)據(jù)的補(bǔ)充也是將通用大模型微調(diào)至專業(yè)領(lǐng)域模型所必需的。宋樂博士指出:“大模型需要真實(shí)的實(shí)驗數(shù)據(jù)來進(jìn)行補(bǔ)充,不斷“喂給”模型研究人員最感興趣的靶點(diǎn)問題、疾病問題相關(guān)的數(shù)據(jù),進(jìn)而微調(diào)到專業(yè)領(lǐng)域模型,提高模型的預(yù)測能力,這類似于ChatGPT在模型訓(xùn)練時的人類強(qiáng)化反饋過程?!?/p>

而為了實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的集成和分析,百圖生科組建了跨多個學(xué)科背景的人才團(tuán)隊,包括AI算法人才、生信工程師、數(shù)據(jù)科學(xué)家、生物學(xué)和醫(yī)學(xué)人才等。百圖生科表示,不同學(xué)科背景人才之間的合作也是整個模型體系搭建、模型架構(gòu)創(chuàng)新,以及推動后續(xù)實(shí)驗、落地到制藥過程的關(guān)鍵。

03 百圖生科的未來愿景:從制藥到解決更廣泛的社會問題

和DeepMind、David Bake Lab等致力于通過大模型解決生命科學(xué)領(lǐng)域問題的公司和實(shí)驗室相比,百圖生科的不同之處在于兩個層面。

首先,如前文所述,百圖生科關(guān)注的不僅是蛋白質(zhì)結(jié)構(gòu)預(yù)測這樣的單點(diǎn)技術(shù),還包括蛋白質(zhì)之間的相互作用等。在百圖生科看來,DeepMind主打的是以Diffusion擴(kuò)散模型的方式來生成蛋白質(zhì),而這些單點(diǎn)技術(shù)本身不足以優(yōu)化藥物。藥物的優(yōu)化實(shí)際上需要有一系列的專業(yè)人才參與其中。

比如,在模型搭建之后需要有生信工程師、生信科學(xué)家來理解模型的輸出結(jié)果、預(yù)測結(jié)果是否合理;同時需要生物、醫(yī)學(xué)方面的人來進(jìn)行真實(shí)實(shí)驗,管理高通量的實(shí)驗體系,以實(shí)現(xiàn)數(shù)據(jù)反饋,持續(xù)優(yōu)化模型能力。這也是百圖生科為什么選擇在成立之初就建立了基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)的原因之一。

而建立該實(shí)驗閉環(huán)的另一個主要原因,也是百圖生科與DeepMind、David Bake Lab、Meta等的第二個不同之處——在藥物研發(fā)場景中更全面的商業(yè)化布局,即并非以完成某個單點(diǎn)技術(shù)突破或者純粹的科研為目的,而是希望能快速將大模型能力實(shí)際應(yīng)用到在整個生物制藥以及生命科學(xué)領(lǐng)域中。為了加速推進(jìn)幾十、上百個藥物管線的開發(fā),百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn),到蛋白打印,再到抗體工程和優(yōu)化的平臺。

同時,百圖生科表示,在未來還將探索除疾病治愈之外的其他與蛋白質(zhì)設(shè)計相關(guān)的社會問題,包括環(huán)境保護(hù)、能源等。例如,探索能夠高效分解塑料或加速特定能源生產(chǎn)制備的蛋白酶。

為了實(shí)現(xiàn)上述愿景,百圖生科未來可能需要持續(xù)提升工程能力,并建立更廣泛的合作網(wǎng)絡(luò)以實(shí)現(xiàn)數(shù)據(jù)飛輪效應(yīng),同時也需注意不能過早地被商業(yè)利益所裹挾。

正如OpenAI在大型語言模型領(lǐng)域取得的階段性成果所顯示的,大模型通用能力的提升在一定程度上得益于其積累的強(qiáng)大工程能力,而這又益于高密度、多領(lǐng)域的人才團(tuán)隊。而這也正是百圖生科關(guān)注的重點(diǎn)之一:加強(qiáng)跨學(xué)科背景的人才團(tuán)隊之間的交流、學(xué)習(xí),并在此過程中不斷碰撞出新的想法和觀點(diǎn)。

據(jù)介紹,在靶點(diǎn)發(fā)現(xiàn)算法建設(shè)的過程中,算法任務(wù)是在預(yù)測擾動后的細(xì)胞狀態(tài)的變化。由于該任務(wù)可以直接利用的數(shù)據(jù)較少,而描述狀態(tài)變化的信息是上萬維度的基因信息,因此難以直接建模。通過生物背景的研究人員和AI算法研發(fā)人員之間的合作,百圖生科創(chuàng)新地建立了xTrimoCell免疫細(xì)胞擾動后功能變化預(yù)測模型。

在合作網(wǎng)絡(luò)構(gòu)建方面,百圖生科一方面推出了“卓越開發(fā)者計劃”,面向前沿生物技術(shù)專家、藥物開發(fā)專家和臨床專業(yè)團(tuán)隊等,為高質(zhì)量的轉(zhuǎn)化醫(yī)學(xué)研究項目提供科研經(jīng)費(fèi)和引擎能力支持;另一方面,與北京大學(xué)醫(yī)學(xué)部等臨床研究機(jī)構(gòu),以及免疫專委會等專業(yè)協(xié)會圍繞具體課題和項目展開相關(guān)合作。此外,百圖生科表示,其近期將開放大模型部分能力的接口。

在商業(yè)化方面,百圖生科表示,正在探索多種與藥企之間的商業(yè)合作形式,并不僅限于License out,也希望能夠一起進(jìn)行藥物開發(fā)。經(jīng)濟(jì)利益的獲取是商業(yè)企業(yè)必須關(guān)注的重點(diǎn),但同時,對創(chuàng)新難度較大的藥物研發(fā)領(lǐng)域而言,如何在尚未實(shí)現(xiàn)盈利的情況下保持科研的定力也是關(guān)鍵。

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片