久久久久亚洲毛片大全,1024手机基地在线免费视频观看,性色AV一区二区三区

對話百圖生科首席AI科學(xué)家宋樂博士：“xTrimo”生命科學(xué)AI大模型，不應(yīng)止于加速藥物研發(fā) 2023-03-15 08:57:07　　來源：36氪

文｜沈筱

編輯｜王與桐

ChatGPT的推出向世界展示了大型語言模型的魅力。這一魅力正是源于大模型泛化能力的提升，使得模型具備完成對話、文本生成、翻譯等多種任務(wù)的能力。同時，大模型經(jīng)過微調(diào)之后即可得到專業(yè)領(lǐng)域模型的能力逐漸顯現(xiàn)，AI大模型在各個領(lǐng)域的應(yīng)用潛力正在被激發(fā)。

(相關(guān)資料圖)

其中，生命科學(xué)是一個早已被關(guān)注，但似乎不那么“吸睛”的領(lǐng)域。然而，事實(shí)上，其或許是AI大模型最重要的應(yīng)用領(lǐng)域之一，并將有望同時實(shí)現(xiàn)商業(yè)價值和社會價值創(chuàng)造。

DeepMind早在2018年就推出了能夠預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型。在2022年，該系列模型已經(jīng)預(yù)測了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu)。Meta也于2022年推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測模型ESMFold。

同樣，在百圖生科看來，得益于數(shù)據(jù)、算力以及模型的快速發(fā)展，人工智能已經(jīng)進(jìn)入了大模型的黃金時代。尤其是生命科學(xué)領(lǐng)域積累了海量的數(shù)據(jù)，而這些數(shù)據(jù)需要有特定的超大模型來加以利用，其價值才能得到激活。百圖生科認(rèn)為，基于大模型，這些數(shù)據(jù)將在藥物研發(fā)領(lǐng)域有所可為。

也正是在這樣的背景下，百圖生科從2020年創(chuàng)立之初，就開始搭建“xTrimo”生命科學(xué)大模型體系，旨在結(jié)合前沿AI和生物技術(shù)，構(gòu)建高通量干濕閉環(huán)的生物計算引擎，建模蛋白質(zhì)、免疫細(xì)胞、免疫系統(tǒng)的復(fù)雜規(guī)律，從而開發(fā)全新的蛋白質(zhì)藥物，重編程免疫系統(tǒng)、治療數(shù)十種免疫相關(guān)疾病。

具體來講，“xTrimo”生命科學(xué)大模型體系能創(chuàng)造何種價值，以及如何實(shí)現(xiàn)價值創(chuàng)造？為了解答上述問題，3月3日下午百圖生科CTO、首席 AI 科學(xué)家宋樂博士與36氪等多家媒體進(jìn)行了交流。

百圖生科CTO、首席 AI 科學(xué)家宋樂博士

據(jù)介紹，百圖生科推出的“xTrimo”（Cross-modal Transformer Representation of Interactome and Multi-Omics）是全球首個、也是目前最大的生命科學(xué)領(lǐng)域的超大規(guī)模多模態(tài)模型體系。該體系由千億參數(shù)的預(yù)訓(xùn)練模型和多個下游任務(wù)模型組成。模型采取4層嵌套結(jié)構(gòu)的設(shè)計邏輯，能夠?qū)蝹€蛋白質(zhì)、細(xì)胞中蛋白質(zhì)相互作用、細(xì)胞本身，以及細(xì)胞系統(tǒng)建模。

以下是在百圖生科交流會訪談實(shí)錄基礎(chǔ)上，經(jīng)整理、編輯而成：

01 生命科學(xué)領(lǐng)域AI大模型的用武之地

盡管一款新藥的成功研發(fā)能帶來高回報，但也意味著其研發(fā)過程具有高風(fēng)險的特征。同時，新藥研發(fā)通常面臨周期長、投入資金成本高、技術(shù)難度大的問題，以至于在生物醫(yī)藥領(lǐng)域中一直有著新藥研發(fā)“雙十定律”或“反摩爾定律”的說法。也就是說，一般情況下，需要投入10億美元，花費(fèi)超過10年時間，才有可能成功研發(fā)一款新藥。

而靶點(diǎn)發(fā)現(xiàn)、化合物合成和篩選是新藥研發(fā)的關(guān)鍵環(huán)節(jié)。在百圖生科看來，AI大模型的價值就在于，有望實(shí)現(xiàn)上述過程效率和效果的雙重提升。

一是基于模型的預(yù)測能力，研發(fā)人員可以更快速地發(fā)現(xiàn)新的蛋白質(zhì)、新的細(xì)胞形態(tài)，探索新的靶點(diǎn)和藥物設(shè)計方向。

生物進(jìn)化是在多層次上經(jīng)歷自然選擇的結(jié)果，包括蛋白質(zhì)序列層面、蛋白質(zhì)互相作用層面、細(xì)胞里基因表達(dá)層面。這些結(jié)果都不是隨機(jī)的。通過使用包含上述信息的數(shù)據(jù)進(jìn)行訓(xùn)練，大模型在一定程度上能夠模擬生物進(jìn)化的過程，進(jìn)而具備預(yù)測能力。宋樂博士指出：“盡管這些生物學(xué)領(lǐng)域的數(shù)據(jù)在過去的十年中呈現(xiàn)出爆發(fā)式增長，但小工具難以實(shí)現(xiàn)數(shù)據(jù)的挖掘和應(yīng)用?！?/p>

二是通過提升化合物合成和篩選的準(zhǔn)確率及可靠性，降低后續(xù)試驗迭代次數(shù)，減少試錯成本，進(jìn)而提高新藥研發(fā)前端進(jìn)程的效率。

在通用的預(yù)訓(xùn)練模型基礎(chǔ)上，僅需更少的數(shù)據(jù)就能得到足夠準(zhǔn)確的下游任務(wù)模型。這些模型預(yù)測出的結(jié)果再用于實(shí)驗中，成功率會更高，所需的實(shí)驗次數(shù)和閉環(huán)迭代的次數(shù)更少。宋樂博士表示，模型預(yù)測準(zhǔn)確高的時候，甚至可以省去不必要的實(shí)驗環(huán)節(jié)，節(jié)省實(shí)驗開支。

另外，通過事先在模型中考慮到藥物設(shè)計最終需要關(guān)注的因素，比如毒性、代謝等問題，基于模型結(jié)果設(shè)計出來的藥物在臨床試驗階段的通過率有望得到提升。這樣一來也間接提高了臨床階段的效率。

據(jù)介紹，百圖生科構(gòu)建“xTrimo”大模型體系，其目的就是探索從蛋白到復(fù)雜生物體的進(jìn)化規(guī)律，并基于此針對性生成滿足特殊需求的蛋白，以蛋白生成和與生物體對話的方式，加速人工設(shè)計蛋白進(jìn)化的速度，從而解決生命科學(xué)行業(yè)的痛點(diǎn)問題。

在預(yù)訓(xùn)練階段，百圖生科融合了理解與生成兩大訓(xùn)練模式，從億級跨模態(tài)生物數(shù)據(jù)訓(xùn)練通用蛋白質(zhì)及細(xì)胞表征預(yù)訓(xùn)練模型，并結(jié)合AutoML加速尋找最優(yōu)應(yīng)用模型架構(gòu)，適配多個生物計算任務(wù)。在此基礎(chǔ)上，“xTrimo”體系能夠表征單體蛋白質(zhì)、蛋白質(zhì)相互作用、免疫細(xì)胞、免疫系統(tǒng)等多層次生物問題，理解生物數(shù)據(jù)之間關(guān)聯(lián)性。

截止目前，“xTrimo”大模型已經(jīng)在蛋白結(jié)構(gòu)預(yù)測、抗體序列生成、細(xì)胞表征等問題上實(shí)現(xiàn)SOTA，并在細(xì)胞功能預(yù)測、denovo藥物設(shè)計上取得了進(jìn)展。百圖生科現(xiàn)有多個AI藥物管線在Lead優(yōu)化階段，同時已與多個行業(yè)伙伴圍繞GCPR、ion channel等難成藥靶點(diǎn)的大分子藥物設(shè)計問題展開合作。

02不止燒錢，訓(xùn)練數(shù)據(jù)也是關(guān)鍵

想要在更少數(shù)據(jù)的基礎(chǔ)上構(gòu)建更準(zhǔn)確的下游任務(wù)模型，就意味著需要底層大模型具有很好的表征或通用能力。這就要求使用更多的數(shù)據(jù)對底層大模型進(jìn)行訓(xùn)練，其背后的算力成本之高可想而知。

百圖生科指出，訓(xùn)練一個千億級的大模型，可能需要上千個GPU，運(yùn)行3到5個月，所需的數(shù)據(jù)量也是TB Trillion級別的。為此，百圖生科與百度云聯(lián)合構(gòu)建了異構(gòu)的生物超算平臺，支持動態(tài)獲取高達(dá)幾千到幾萬個GPU，以及相應(yīng)的CPU資源。經(jīng)粗略估算，每年對類似xTrimo這樣級別的大模型進(jìn)行幾次訓(xùn)練，需要在計算資源方面花費(fèi)上億元。

而除了算力投入，高質(zhì)量數(shù)據(jù)的挖掘和利用也是百圖生科打磨大模型需要解決的關(guān)鍵問題。宋樂博士表示，數(shù)據(jù)的準(zhǔn)確度或質(zhì)量會對模型表現(xiàn)造成直接影響，對下游任務(wù)來講更是如此。例如，想知道設(shè)計的抗體和抗原之間親和力的強(qiáng)弱，只有在預(yù)測相對準(zhǔn)確的情況下，才能夠挑選到一個比較好的抗體。

然而，在百圖生科看來，盡管現(xiàn)有生物學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)相當(dāng)豐富，但由于數(shù)據(jù)來源于不同的技術(shù)和方法，呈現(xiàn)出跨模態(tài)的特征，在數(shù)據(jù)挖掘和利用方面仍然存在兩個挑戰(zhàn)。

一是生物數(shù)據(jù)的不一致性和噪聲問題。為了確保數(shù)據(jù)的質(zhì)量和一致性，需要采用合適的算法和工具進(jìn)行數(shù)據(jù)預(yù)處理和清洗，來解決不同技術(shù)和方法造成的數(shù)據(jù)質(zhì)量和信噪比不同的問題。

二是跨模態(tài)數(shù)據(jù)的集成和分析的復(fù)雜性。生物數(shù)據(jù)具有多模態(tài)、多尺度和多維度的特點(diǎn)，通常需要跨學(xué)科的合作，利用專業(yè)技能和知識來處理和分析這些數(shù)據(jù)。

也就是說，在數(shù)據(jù)收集、整理方面，一方面，需要保障數(shù)據(jù)的準(zhǔn)確度和可靠性；另一方面需要找到數(shù)據(jù)對應(yīng)關(guān)系，將蛋白質(zhì)相互作用，單細(xì)胞數(shù)據(jù)都集成到統(tǒng)一的數(shù)據(jù)庫里，才能系統(tǒng)性地利用好關(guān)聯(lián)數(shù)據(jù)。

為此，百圖生科針對公開數(shù)據(jù)進(jìn)行了精細(xì)的對齊工作，并以內(nèi)部實(shí)驗室數(shù)據(jù)為高質(zhì)量數(shù)據(jù)的補(bǔ)充。

對來自于公開領(lǐng)域的數(shù)據(jù)，百圖生科的生信工程師會基于自有實(shí)驗體系，重新測量、評估數(shù)據(jù)，以驗證公開數(shù)據(jù)之間的相關(guān)性或準(zhǔn)確率。測量結(jié)果將影響模型訓(xùn)練時對數(shù)據(jù)的使用權(quán)重。同時，為了百圖生科圍繞數(shù)據(jù)對應(yīng)關(guān)系的建立進(jìn)行了探索，花費(fèi)了一年的時間實(shí)現(xiàn)了公開數(shù)據(jù)的對齊。具體來說，包括將蛋白質(zhì)與基因配對，將相互作用對應(yīng)的兩個基因或蛋白質(zhì)進(jìn)行關(guān)聯(lián)等。

在內(nèi)部數(shù)據(jù)獲取方面，百圖生科規(guī)劃、建立了高通量實(shí)驗驗證體系，以實(shí)現(xiàn)基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)。以組學(xué)實(shí)驗室為例，百圖生科針對10余種不同來源的組織進(jìn)行樣本處理，每年可采集1000萬個單細(xì)胞測序數(shù)據(jù)。

目前，來自實(shí)驗室的私域數(shù)據(jù)占比約為10%。而這些私域數(shù)據(jù)的補(bǔ)充也是將通用大模型微調(diào)至專業(yè)領(lǐng)域模型所必需的。宋樂博士指出：“大模型需要真實(shí)的實(shí)驗數(shù)據(jù)來進(jìn)行補(bǔ)充，不斷“喂給”模型研究人員最感興趣的靶點(diǎn)問題、疾病問題相關(guān)的數(shù)據(jù)，進(jìn)而微調(diào)到專業(yè)領(lǐng)域模型，提高模型的預(yù)測能力，這類似于ChatGPT在模型訓(xùn)練時的人類強(qiáng)化反饋過程?！?/p>

而為了實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的集成和分析，百圖生科組建了跨多個學(xué)科背景的人才團(tuán)隊，包括AI算法人才、生信工程師、數(shù)據(jù)科學(xué)家、生物學(xué)和醫(yī)學(xué)人才等。百圖生科表示，不同學(xué)科背景人才之間的合作也是整個模型體系搭建、模型架構(gòu)創(chuàng)新，以及推動后續(xù)實(shí)驗、落地到制藥過程的關(guān)鍵。

03 百圖生科的未來愿景：從制藥到解決更廣泛的社會問題

和DeepMind、David Bake Lab等致力于通過大模型解決生命科學(xué)領(lǐng)域問題的公司和實(shí)驗室相比，百圖生科的不同之處在于兩個層面。

首先，如前文所述，百圖生科關(guān)注的不僅是蛋白質(zhì)結(jié)構(gòu)預(yù)測這樣的單點(diǎn)技術(shù)，還包括蛋白質(zhì)之間的相互作用等。在百圖生科看來，DeepMind主打的是以Diffusion擴(kuò)散模型的方式來生成蛋白質(zhì)，而這些單點(diǎn)技術(shù)本身不足以優(yōu)化藥物。藥物的優(yōu)化實(shí)際上需要有一系列的專業(yè)人才參與其中。

比如，在模型搭建之后需要有生信工程師、生信科學(xué)家來理解模型的輸出結(jié)果、預(yù)測結(jié)果是否合理；同時需要生物、醫(yī)學(xué)方面的人來進(jìn)行真實(shí)實(shí)驗，管理高通量的實(shí)驗體系，以實(shí)現(xiàn)數(shù)據(jù)反饋，持續(xù)優(yōu)化模型能力。這也是百圖生科為什么選擇在成立之初就建立了基于干濕數(shù)據(jù)的AI創(chuàng)新藥研發(fā)端到端閉環(huán)的原因之一。

而建立該實(shí)驗閉環(huán)的另一個主要原因，也是百圖生科與DeepMind、David Bake Lab、Meta等的第二個不同之處——在藥物研發(fā)場景中更全面的商業(yè)化布局，即并非以完成某個單點(diǎn)技術(shù)突破或者純粹的科研為目的，而是希望能快速將大模型能力實(shí)際應(yīng)用到在整個生物制藥以及生命科學(xué)領(lǐng)域中。為了加速推進(jìn)幾十、上百個藥物管線的開發(fā)，百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn)，到蛋白打印，再到抗體工程和優(yōu)化的平臺。

同時，百圖生科表示，在未來還將探索除疾病治愈之外的其他與蛋白質(zhì)設(shè)計相關(guān)的社會問題，包括環(huán)境保護(hù)、能源等。例如，探索能夠高效分解塑料或加速特定能源生產(chǎn)制備的蛋白酶。

為了實(shí)現(xiàn)上述愿景，百圖生科未來可能需要持續(xù)提升工程能力，并建立更廣泛的合作網(wǎng)絡(luò)以實(shí)現(xiàn)數(shù)據(jù)飛輪效應(yīng)，同時也需注意不能過早地被商業(yè)利益所裹挾。

正如OpenAI在大型語言模型領(lǐng)域取得的階段性成果所顯示的，大模型通用能力的提升在一定程度上得益于其積累的強(qiáng)大工程能力，而這又益于高密度、多領(lǐng)域的人才團(tuán)隊。而這也正是百圖生科關(guān)注的重點(diǎn)之一：加強(qiáng)跨學(xué)科背景的人才團(tuán)隊之間的交流、學(xué)習(xí)，并在此過程中不斷碰撞出新的想法和觀點(diǎn)。

據(jù)介紹，在靶點(diǎn)發(fā)現(xiàn)算法建設(shè)的過程中，算法任務(wù)是在預(yù)測擾動后的細(xì)胞狀態(tài)的變化。由于該任務(wù)可以直接利用的數(shù)據(jù)較少，而描述狀態(tài)變化的信息是上萬維度的基因信息，因此難以直接建模。通過生物背景的研究人員和AI算法研發(fā)人員之間的合作，百圖生科創(chuàng)新地建立了xTrimoCell免疫細(xì)胞擾動后功能變化預(yù)測模型。

在合作網(wǎng)絡(luò)構(gòu)建方面，百圖生科一方面推出了“卓越開發(fā)者計劃”，面向前沿生物技術(shù)專家、藥物開發(fā)專家和臨床專業(yè)團(tuán)隊等，為高質(zhì)量的轉(zhuǎn)化醫(yī)學(xué)研究項目提供科研經(jīng)費(fèi)和引擎能力支持；另一方面，與北京大學(xué)醫(yī)學(xué)部等臨床研究機(jī)構(gòu)，以及免疫專委會等專業(yè)協(xié)會圍繞具體課題和項目展開相關(guān)合作。此外，百圖生科表示，其近期將開放大模型部分能力的接口。

在商業(yè)化方面，百圖生科表示，正在探索多種與藥企之間的商業(yè)合作形式，并不僅限于License out，也希望能夠一起進(jìn)行藥物開發(fā)。經(jīng)濟(jì)利益的獲取是商業(yè)企業(yè)必須關(guān)注的重點(diǎn)，但同時，對創(chuàng)新難度較大的藥物研發(fā)領(lǐng)域而言，如何在尚未實(shí)現(xiàn)盈利的情況下保持科研的定力也是關(guān)鍵。

關(guān)鍵詞：

相關(guān)閱讀：