首頁(yè)>資訊 >
生命科學(xué)公司推出AIGP平臺(tái),如何重塑行業(yè)?公司管理層詳答 2023-03-28 10:57:52  來(lái)源:36氪

隨著OpenAI、微軟、百度等大廠競(jìng)相發(fā)布ChatGPT大模型產(chǎn)品,AIGC的落地應(yīng)用逐漸成為新的關(guān)注焦點(diǎn)。大廠以外,初創(chuàng)公司已經(jīng)率先將探索的觸角伸向了生命科學(xué)領(lǐng)域。日前,創(chuàng)業(yè)企業(yè)百圖生科發(fā)布了其基于生命科學(xué)大模型xTrimo的AIGP(AI Generated Protein)平臺(tái)。

與依靠人力設(shè)計(jì)、動(dòng)物模型篩選等方法進(jìn)行的傳統(tǒng)蛋白質(zhì)生成模式相比,百圖生科CEO劉維對(duì)《科創(chuàng)板日?qǐng)?bào)》記者指出,AIGP在針對(duì)“難成藥”靶點(diǎn)的蛋白設(shè)計(jì)上,有機(jī)會(huì)向傳統(tǒng)的蛋白質(zhì)設(shè)計(jì)模式發(fā)起挑戰(zhàn)。


(資料圖)

“傳統(tǒng)上,蛋白質(zhì)篩選主要依靠動(dòng)物實(shí)驗(yàn),后者已形成了非常成熟的體系。如果用AIGP去替代它們的部分工作流程,意義相對(duì)有限;而對(duì)于難成藥靶點(diǎn),傳統(tǒng)方式已經(jīng)很難有所突破,AIGP有了更大的應(yīng)用意義:它也許不能完全答對(duì),但可以提出相關(guān)性預(yù)測(cè),再通過多輪的迭代就能找到答案?!眲⒕S稱。

《科創(chuàng)板日?qǐng)?bào)》記者從發(fā)布會(huì)現(xiàn)場(chǎng)獲悉,該平臺(tái)已構(gòu)建了千億級(jí)參數(shù)的預(yù)訓(xùn)練模型以及多組學(xué)免疫圖譜,目前有40余個(gè)在研項(xiàng)目正經(jīng)由AI技術(shù)在推進(jìn)研發(fā)中,另已在內(nèi)測(cè)中為某創(chuàng)新免疫調(diào)控藥物提供了多個(gè)高性能彈頭、新功能傳感器

在算法端,更多的應(yīng)用及反饋數(shù)據(jù)有助于大模型算法的迭代升級(jí)。百圖生科也計(jì)劃將AIGP平臺(tái)的部分成熟功能對(duì)專業(yè)用戶開源。劉維在現(xiàn)場(chǎng)預(yù)計(jì)稱,該平臺(tái)會(huì)在今年6月迭代至1.5版本,并將部分功能模塊進(jìn)一步向?qū)I(yè)用戶開放;年內(nèi),該平臺(tái)將進(jìn)一步迭代至2.0版本,并向更多合作伙伴推薦使用。

進(jìn)一步資料顯示,百圖生科成立于2020年11月,由李彥宏?duì)款^創(chuàng)立并出任董事長(zhǎng); 2021年7月,百圖生科宣布完成上億美元的A輪融資,融資由GGV資本領(lǐng)投,百度、君聯(lián)資本、藍(lán)馳創(chuàng)投、真知資本、襄禾資本跟投,公司創(chuàng)始人李彥宏繼續(xù)追加投資。

記者獲悉,目前百圖生科正擬進(jìn)行新一輪融資。

▌難以成藥靶點(diǎn)成新突破點(diǎn)

難成藥靶點(diǎn)指的是,那些因?yàn)槠洫?dú)特的生物學(xué)特性、藥物設(shè)計(jì)上的挑戰(zhàn)、臨床研究上的難度等原因,而難以成藥的靶點(diǎn)。它是當(dāng)前生物醫(yī)藥領(lǐng)域的一個(gè)熱點(diǎn)研究領(lǐng)域,也是科學(xué)家們想要挑戰(zhàn)的圣杯。

近年來(lái),利用人工智能技術(shù)等新工具和方法來(lái)進(jìn)行難成藥靶點(diǎn)新藥的研發(fā)逐漸在圈內(nèi)流行,不少AI企業(yè)以及一些Biotech們都試圖通過在該類型靶點(diǎn)上進(jìn)行突破而“出圈”。因此,百圖生科的選擇并不讓人意外。

在發(fā)布會(huì)現(xiàn)場(chǎng),劉維對(duì)該問題的態(tài)度也顯得很坦然:“大模型對(duì)于難成藥靶點(diǎn)有泛化能力的,可以為科學(xué)家們進(jìn)行賦能,反過來(lái),來(lái)自專家的經(jīng)驗(yàn)也可以進(jìn)一步幫助算法模型繼續(xù)優(yōu)化迭代,進(jìn)而形成正向循環(huán)?!?/p>

而且,進(jìn)一步來(lái)看,由于缺少有效的開發(fā)方法,科學(xué)家們就難成藥靶點(diǎn)與AI企業(yè)進(jìn)行跨界合作的意愿也會(huì)更強(qiáng)。這是因?yàn)?,“?duì)于難成藥靶點(diǎn),其蛋白本身就難以制備,科學(xué)家們或許已經(jīng)窮盡了傳統(tǒng)的研究方法,進(jìn)展卻非常有限,對(duì)于新方法的接受度也會(huì)更高?!眲⒕S稱,目前與百圖生科進(jìn)行合作的伙伴,大部分是圍繞難成藥靶點(diǎn)所進(jìn)行的。

合作數(shù)據(jù)上,百圖生科稱,已有近20家合作伙伴和百圖生科開展了AIGP聯(lián)合研發(fā)合作,方向覆蓋高性能彈頭設(shè)計(jì)、新功能蛋白質(zhì)設(shè)計(jì)、靶點(diǎn)挖掘和調(diào)控蛋白設(shè)計(jì)等領(lǐng)域,其中多個(gè)項(xiàng)目取得了階段性的發(fā)現(xiàn)成果。

除生物醫(yī)藥外,百圖生科也計(jì)劃將AIGP技術(shù)應(yīng)用到環(huán)保、材料、消費(fèi)等更多場(chǎng)景。

▌蛋白質(zhì)設(shè)計(jì)開啟新市場(chǎng)

針對(duì)難成藥靶點(diǎn)的蛋白設(shè)計(jì)為什么能由AI來(lái)“代筆”呢?在現(xiàn)場(chǎng),百圖生科的CTO宋樂給出了一個(gè)生動(dòng)的解釋。

以ChatGPT類比來(lái)看,ChatGPT通過大量的語(yǔ)料預(yù)訓(xùn)練,其訓(xùn)練邏輯是26個(gè)字母-詞語(yǔ)-句子-段落-文章,預(yù)訓(xùn)練后,再通過人的評(píng)分反饋以及強(qiáng)化學(xué)習(xí)算法,反復(fù)迭代,最終ChatGPT能夠“自然流暢”地與人對(duì)話。

而蛋白質(zhì)的自動(dòng)生成,也存在著類似的邏輯鏈路。

“生命科學(xué)里中,最重要的語(yǔ)言是蛋白質(zhì),蛋白質(zhì)是由20種氨基酸串成的一條鏈,前者類似于單詞,后者則像句子一樣。各個(gè)氨基酸鏈之間折疊成三維的蛋白質(zhì)結(jié)構(gòu),再與其他蛋白質(zhì)互相作用,這不就是聯(lián)系上下文嗎?進(jìn)而又產(chǎn)生了復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),形成細(xì)胞功能。”宋樂解釋稱,如果仔細(xì)研究人體,會(huì)發(fā)現(xiàn)各種細(xì)胞分子之間的作用關(guān)系非常有趣,“有點(diǎn)像詞、句、段落的嵌套結(jié)構(gòu)?!?/p>

據(jù)介紹,百圖生科AIGP平臺(tái)設(shè)置了3類功能模塊,分別是Function to Protein Design(F2P,根據(jù)結(jié)構(gòu)、功能、可開發(fā)性等功能指標(biāo)設(shè)計(jì)/優(yōu)化蛋白質(zhì))、Protein to Protein Design(P2P,給定抗原等目標(biāo)蛋白,設(shè)計(jì)與之以特定方式結(jié)合的抗體等蛋白),以及Cell to Protein Design(C2P,給定細(xì)胞,發(fā)現(xiàn)調(diào)控細(xì)胞功能的靶點(diǎn)蛋白并設(shè)計(jì)相應(yīng)的調(diào)控蛋白)。記者注意到,相較于其他同類型企業(yè),與百度頗有淵源的百圖生科或在大模型非常依賴的算力解決方案上更有優(yōu)勢(shì)。

▌大數(shù)據(jù)仍然關(guān)鍵

從數(shù)據(jù)上來(lái)看,百圖生科現(xiàn)有的數(shù)據(jù)量達(dá)到了千億級(jí)別。記者在現(xiàn) 場(chǎng)了解到,該數(shù)據(jù)中90%來(lái)自于公開和半公開的數(shù)據(jù)整理。

不同于日常語(yǔ)境下的聊天數(shù)據(jù),AI企業(yè)要獲取生命科學(xué)領(lǐng)域的數(shù)據(jù),其壁壘較高,而且數(shù)據(jù)的整理也更加復(fù)雜、成本更大。

“我們做了世界上最大的生命科學(xué)的數(shù)據(jù)圖譜。公開數(shù)據(jù)整理聽起來(lái)很容易,但是過程很難。因?yàn)檫@些數(shù)據(jù)散落在不同的數(shù)據(jù)集,甚至不是結(jié)構(gòu)化數(shù)據(jù),是論文、專利,怎么把它們抽取出來(lái)?它們表面看似不相關(guān)但在更底層卻是有連接的,怎么關(guān)聯(lián)起來(lái)?我們有大量的專業(yè)人員,整理了幾億、幾十億的蛋白質(zhì)實(shí)體,厘清了幾百億蛋白質(zhì)的關(guān)系,這些都是給大模型非常重要的語(yǔ)料數(shù)據(jù)。”劉維表示。

宋樂則進(jìn)一步補(bǔ)充稱,要訓(xùn)練出千億參數(shù)級(jí)別的大模型,需要近一千個(gè)GPU運(yùn)行數(shù)月時(shí)間,才能夠訓(xùn)練一版比較好的模型,成本較大?!皬漠?dāng)前的角度來(lái)說(shuō),我們能夠達(dá)到最好的模型是大概是千億級(jí)的參數(shù),也許在未來(lái)一年或者三年時(shí)間,我們會(huì)訓(xùn)練到萬(wàn)億級(jí)別?!?/p>

在現(xiàn)場(chǎng),劉維也坦言稱,企業(yè)在NLP算法以及算力上也和百度有相應(yīng)的合作。

▌未來(lái)或可實(shí)現(xiàn)自動(dòng)化蛋白質(zhì)工廠

基于此,劉維向《科創(chuàng)板日?qǐng)?bào)》記者描繪了一座“蛋白質(zhì)工廠”:

由科研人員輸入對(duì)目標(biāo)蛋白質(zhì)的各種參數(shù)需求,算法在生成蛋白質(zhì)后,該蛋白質(zhì)可以被自動(dòng)打印出來(lái),這一系列工作可全部自動(dòng)化完成??蒲腥藛T只拿著由算法自動(dòng)化生產(chǎn)出來(lái)的蛋白質(zhì)進(jìn)一步科學(xué)驗(yàn)證即可。

這樣一來(lái),蛋白質(zhì)設(shè)計(jì)、生產(chǎn)的整個(gè)流程將被極大簡(jiǎn)化:“花大約幾十分鐘、幾個(gè)小時(shí)的時(shí)間來(lái)設(shè)計(jì)蛋白,用高通量的蛋白打印系統(tǒng),幾天時(shí)間能把蛋白制備出來(lái)。”劉維稱,這一速度已經(jīng)是業(yè)內(nèi)領(lǐng)先的。

據(jù)悉,百圖生科已經(jīng)在蘇州建立了高通量的蛋白打印中心,一年可實(shí)現(xiàn)幾萬(wàn)個(gè)復(fù)雜蛋蛋白質(zhì)的打印、制備、測(cè)定工作?!拔覀円院笙M堰@個(gè)能量再進(jìn)一步擴(kuò)展,從而支撐大量的研發(fā)項(xiàng)目。”劉維稱。

如此一來(lái),百圖生科實(shí)現(xiàn)了自身業(yè)務(wù)從設(shè)計(jì)到生產(chǎn)再到驗(yàn)證的閉環(huán)。

關(guān)于商業(yè)模式,劉維表示,百圖生科AIGP平臺(tái),最終目的不是面向商業(yè)客戶收取服務(wù)費(fèi),而是尋找公測(cè)的合作伙伴,利用AIGP領(lǐng)先的蛋白質(zhì)從頭設(shè)計(jì)能力和合作伙伴在生命科學(xué)領(lǐng)域的其他能力,包括擴(kuò)展到石油、環(huán)保等其他領(lǐng)域的專業(yè)能力,來(lái)共同建立前沿的藥物研發(fā)項(xiàng)目,或者獨(dú)特的生命科學(xué)/環(huán)保健康等等產(chǎn)品的研發(fā)項(xiàng)目,通過雙方的合作,讓這些研發(fā)項(xiàng)目更快取得成功,這樣既可創(chuàng)造社會(huì)效益,也可獲得經(jīng)濟(jì)效益回報(bào)。

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片