首頁>資訊 >
GPT-4震驚四座,中國創(chuàng)業(yè)者激戰(zhàn)“小模型” | Future 2023-03-15 15:38:30  來源:36氪

當瓦特蒸汽機的齒輪轉動了第一圈;當喬布斯從牛皮紙袋掏出Macbook;當ChatGBT用流暢優(yōu)美的語言回答第一個問題??萍迹?、正在、也將改變未來。

【Future】是36氪科技報道團隊主理的一檔專欄,我們將圍繞科技產業(yè)的前沿突破,記錄那些實驗室里令人振奮的新技術,是如何穿越PMF(Product Market Fit 產品與市場結合)的驚險周期,進而影響更廣闊的商業(yè)社會。

在這里,看見【Future】。


(相關資料圖)

發(fā)布ChatGPT僅三個多月后,OpenAI親手為這場大模型熱潮再添了把柴火。

北京時間3月15日凌晨,OpenAI在官網上宣告了多模態(tài)大模型GPT4的誕生。優(yōu)化了模型可支持的輸入模態(tài)、文本長度等性能之外,OpenAI在GPT-4的基礎上升級了ChatGPT,并一舉開放了API——迭代的速度之快,令人咋舌。

在這場屬于大模型的狂飆中,數字已經讓人麻木。首先是模型的參數量——此前,OpenAI用GPT-3(參數量達1750億)將大模型的參數量卷上千億級別,但很快,谷歌在3月6日推出的多模態(tài)大模型PalM-E,則用5620億的參數坐上了“史上最大視覺語言模型”的位置。

其次是公司狂飆的估值。全球早期項目數據服務商Dealroom的報告顯示,全球生成式AI企業(yè)的估值達到總計約480億美元,在2年里翻了6倍。

國內AI賽道升溫來得晚,但企業(yè)估值飆升的速度有過之無不及——王慧文的AI公司“光年之外”,天使輪的估值達到了2億美金。一家由某位技術大拿近期創(chuàng)立的大模型企業(yè),模型demo還沒影子,天使輪的估值也讓其進入了億元美金俱樂部——而在元宇宙的風口中,百萬美金,似乎已經是國內創(chuàng)企天使輪的估值天花板。

風口中,也有一些糾結、負面的聲音浮現(xiàn)。

3月2日晚,一篇主題為“為什么感覺歐美的AI比我們強”的貼文引起不少爭議。發(fā)帖者比較了中美的AI發(fā)展環(huán)境,將歐美AI的發(fā)展視作臥薪嘗膽的“精英教育”,而國內則是重商業(yè)化的“功利教育”,最后得出了一個略顯絕望的結論:人的命運在子宮里就注定了,機器人也不可幸免。

主題為“為什么感覺歐美的AI比我們強”的貼文。圖源:微博@陳怡然-杜克大學,貼文由其轉載

當下,大模型的暴力美學對于多數企業(yè)來說,或許并非全力以赴的最好選擇。算力、高質量數據,以及高密度的算法人才,這些都是上大模型牌桌所需的昂貴入場券,國內多數玩家無法在朝夕之間擁有等同OpenAI的儲備。

但豐富的數據維度和廣闊的應用場景,是上一波持續(xù)了10多年的互聯(lián)網浪潮,留給中國創(chuàng)業(yè)者的富礦。近一個月以來,不少有場景、有用戶數據的小企業(yè),已經基于國內外大模型的基座,訓練出適配自身業(yè)務的小模型。而一家擁有百億參數大模型儲備的公司,也自行“瘦身”,針對金融、廣告等領域,推出了輕量化的模型,以進行新一輪的數據儲備。

當下,用小模型打磨算法的利刃,為大模型的研發(fā)做好技術儲備,或許是中國創(chuàng)業(yè)者在未來實現(xiàn)彎道超車的一條通路。

“全才”大模型 vs “專家”小模型

如何讓AI更聰明、更像人,本質上是一個教育問題。

此前的很長一段時間,人們熱衷于將AI送進“專科院?!保瑢W會解決特定問題的能力——參數量往往低于百萬的小模型由此誕生。比如谷歌旗下的AI公司DeepMind,讓AlphaGO對上百萬種人類專業(yè)選手的下棋步驟進行了進修,最終在2016年以4:1的成績戰(zhàn)勝圍棋名將李世石。

但??平逃谋锥艘埠苊黠@,小模型大多都有偏科的毛病。比如面對寫營銷文案時,精于圖片生成的小模型就碰了壁。同時,??频慕逃Y源分散,每個小模型都需要分別從頭進行基礎訓練,

作為父母的人類,大多有著培養(yǎng)出全才的期望。2017年,谷歌發(fā)明了一種新的教育方式:Transformer模型。

以往的“??平逃敝?,AI的學習十分依賴人類對學習資料的標注和挑選,比如AlphaGO的學習資料來自于專業(yè)棋手,而非上圍棋興趣班的孩子。而Transformer訓練方式的精髓在于讓AI通過大量的預習,自行對不同科目的學習資料“劃重點”。

用于訓練的數據越多,模型預習的效果越好;參數越多,模型劃出的重點也就越精確。自行劃重點的教育方法解放了人類的雙手,同時讓AI對不同科目多管齊下,實現(xiàn)了跨領域的知識積累。

2018年,谷歌基于Transformer發(fā)布了首個參數過億的基礎模型BERT,并在翻譯這門科目上,成績遠優(yōu)于神經網絡培訓(比如CNN和RNN)模式下培育的模型。

自此,Transformer席卷了模型教育界,大模型的“大”,也被不少公司卷了起來。目前,100億的參數量被業(yè)界認為是模型能力實現(xiàn)躍升的拐點。

大模型最為直觀的優(yōu)越性,在于有小模型難以企及的推理演繹能力,能理解更復雜、更廣闊的場景。

除了內容生產領域外,大模型還能用在哪?移動互聯(lián)網服務商APUS創(chuàng)始人李濤還舉了一個例子:一線城市的交通擁堵,80%的問題根源不在于過多的車輛,而在于協(xié)同程度低的智慧交通系統(tǒng)——每個路口紅綠燈的秒數設置成多少?不同路段的紅綠燈如何配合?僅靠人或者小模型,這些問題難以解決。

而大模型的出現(xiàn),讓巨量的交通數據有了用武之地,“人最多只能根據一個路段的交通情況做出決策,而大模型能夠看得更全面”。

大模型更大的潛力,還在于能夠降低小模型訓練的成本。大模型好比是歷經了義務教育的孩子,在此基礎上,上大學選專業(yè),進而成為更高階的專業(yè)人才是件成本較低、水到渠成的事。

這也意味著,有了大模型作為基座,從中訓練出針對特定應用場景的輕量模型,能夠省去從0開始培養(yǎng)基礎理解的過程。當然,這一做法的風險是,大模型的能力會直接影響培育出模型的質量。

大模型/基礎模型出現(xiàn)的AI 2.0時代 vs 此前的AI 1.0時代下,人工智能落地到應用的過程。圖源:創(chuàng)新工場

以ChatGPT為代表的生成式AI,則是大模型時代下,從象牙塔走向廣闊應用的第一批優(yōu)秀畢業(yè)生。GPT-3.5是掩藏在語言生成能力出眾的ChatGPT背后的大模型基座,低調,但作用巨大——如今,它已經的教育資源已經升了級,迭代成了GPT-4。

不過,大模型時代的到來,并不意味著高精尖的中小模型將被淘汰。落地到具體的應用,經濟性就不得不被企業(yè)納入考量之中,給成本昂貴的大模型“瘦身”顯得尤為重要。“具體的應用場景,未來依然會是中小模型的天下。”李濤總結。

發(fā)展大模型難在哪?

一個月以來,不少號稱“類ChatGPT”的對話應用涌入市場。

僅從日常對話體驗出發(fā),每一款產品的差異似乎并不大。忽悠或取悅提問者、時效性差等問題仍是通病,但相較囿于特定場景和答題模板的智能客服,當下涌現(xiàn)的對話機器人已經讓人初步有了“想繼續(xù)聊下去”的興趣。

但再往下深究模型的參數、Token等細節(jié),一切又變得不那么樂觀。自研模型達到百億參數規(guī)模的初創(chuàng)企業(yè)寥寥無幾,而參數規(guī)??捎^的企業(yè),不少又有些貓膩。

為了測試大模型的能力,一位互聯(lián)網企業(yè)的戰(zhàn)略分析師向36氪展示了他設計的創(chuàng)意寫作、新聞檢索、邏輯推理等300-400組Prompt(問答提示),對十多個突破10億參數規(guī)模的“類ChatGPT”應用進行逐一測試需要花上兩三個月的時間。

測試后,他發(fā)現(xiàn)大多產品的回答模式和ChatGPT太類似了:“很難讓人不懷疑,‘自研’模型的水分有多少?!?/p>

為什么目前國內仍然沒有出現(xiàn)ChatGPT?多數從業(yè)者都覺得答案顯而易見,卻又讓人無奈:做大模型不僅得花大量金錢和時間“死摳”,還需要愿意不計成本投入其中的社會環(huán)境。

算力、算法、數據、場景,這是跑通大模型的四個關鍵要素。前兩者也是可以想見的浮于海平面上的困難,尤其對于小公司而言。

《ChatGPT中國變形記》一文對這些靈魂拷問都有所提及:想要跑通一次100億以上參數量的模型至少需要用1000張GPU卡訓練一個月,一定程度上決定算法能力的人才又大多聚集在硅谷或實力雄厚的大廠。

掩藏在海面下的困難,則是長期以來囿于商業(yè)回報的行業(yè)價值觀。

“自改革開放以來,中國經濟保持了30多年的高速增長期,并快速躋身世界前列,這和互聯(lián)網發(fā)展拉動更多行業(yè)進行快速商業(yè)化落地有很大關系?!币幻趪鴥韧饣ヂ?lián)網企業(yè)AI團隊近20年的從業(yè)者告訴36氪。但發(fā)展的經驗,亦成了慣性的枷鎖,“在ChatGPT所帶來的新機會面前,我們不可避免地仍然用舊的商業(yè)回報的視角去加以評估”。

不少投資人也覺得,爽快地拿錢是件不容易的事。受中概股形勢嚴峻、企業(yè)赴美上市難等因素影響,不少科技企業(yè)對美元基金的態(tài)度變得保守謹慎。而如今政府主導基金在人民幣LP中的比例加大,基金募集人民幣面臨更大的挑戰(zhàn)。

夾在其間的雙幣基金更是面臨著兩頭不討好的困境。“除了個別不缺錢的頭部基金,大部分投資機構都在觀望?!币幻p幣基金投資人表示。

即便訓練出了大模型,依然沒有人敢斷定,資金回報一定會在“5+2”的投資周期后到來。

3月2日,OpenAI以$0.002/1000 tokens(約等于100萬個單詞/18元人民幣)的“白菜價”公開了ChatGPT的API,往行業(yè)投擲了一枚不確定性的炸彈。僅過了半個月,GPT-4又以終結者的姿態(tài)空降賽道。這更是讓國內不少企業(yè)覺得:“卷不過?!?/p>

最先受到沖擊的是模型層的公司,模型性能還沒磨到能與ChatGPT同臺競技的水平,又失去了定價權。

內容行業(yè)的改革也不可避免,如搜索、設計、文案撰寫等等。一名互聯(lián)網搜索業(yè)務的員工聊起響應新技術改革過程時的無措:“比如與營收直接掛鉤的廣告,在生成式AI接入后,用戶可能擁有選擇不看廣告的權利;即便放上廣告,接入大模型后搜索的成本也翻了番?!?/p>

而商業(yè)變現(xiàn)的想法,看似只需在現(xiàn)有應用上前綴“AI+”一般簡單,卻又不甚明朗。

“朦朧美”,不少投資人如此形容近兩個月AI賽道上的標的?!?strong>在科技行業(yè),很多新技術一開始都是主題投資,投的是一種想象力經濟。”一名經歷了元宇宙、Web3等諸多風口的投資人告訴36氪,“我們傾向于認為目前的‘AI+’都有做成的可能,但也正因為如此,企業(yè)的vision(遠見卓識)和商業(yè)模式在尋求融資的過程中會被更加強調?!?/p>

一個月前見到一名雙幣基金的投資人時,她正拒絕了一家立下“1年內訓練出大模型”軍令狀的公司。最近再見她,對方用同樣的兩個問題勸退了不少趕風口的企業(yè):

“你們做大模型的必要性在哪?”

“有什么明確的商業(yè)模式嗎?”

場景和數據,國內小模型的機會

但好在,中國不缺AI模型的落地場景,以及豐富的用戶數據——這讓國內公司在培育大模型這一“西瓜”的同時,還能收割輕量化模型撒下的“芝麻”。

回到模型訓練的本質:量變引起質變。暴力出奇跡的基礎在于海量的數據,而我國超10億規(guī)模的互聯(lián)網民,已經給大模型的研發(fā)提供了足夠的燃料。而席卷了近十年的數字化浪潮,又讓AI在足夠多的成熟產業(yè)有快速落地的可能,同時又能為方興未艾的行業(yè)注入新血。

不少曾經立下“All in 大模型”flag的基金,經歷了近3個月的火熱后,選擇自行降溫。一名雙幣基金投資人告訴36氪,團隊已經調整了投資戰(zhàn)略,“比起投一家模型層公司,不如和現(xiàn)有的portfolio(投資組合)討論如何接入模型優(yōu)化業(yè)務。”

但聚焦到特定的應用場景,最終發(fā)揮作用的往往不是大模型,而是輕量的中小模型。大模型涉獵廣,但對具體場景的推理演繹能力往往不如“專家”中小模型。另一方面,從更現(xiàn)實的成本問題出發(fā),中小模型能將大模型運行所需的算力成本降到1/10甚至1/100。

李濤認為,國內企業(yè)現(xiàn)階段可以奉行的是“拿來主義”,基于海外的開源大模型,將中小模型打磨至頂尖水平:

“現(xiàn)在國內企業(yè)能跑通的是這樣一條路:用海外大模型對落地場景進行驗證,再基于我們豐富的數據資源訓練中小模型,最后落地至具體場景——大模型的4個要素,除了算力是長跑,剩下3個都是能夠把握在手里的?!?/p>

這也意味著,國內有場景、有數據的模型層公司,在OpenAI給予的競爭壓力下,依然能抓住不少機會。中小模型落地后,各行各業(yè)積攢的數據又能成為自研大模型的“飛輪”。

目睹OpenAI踏出一條明路后,也有更多人愿意不計較太多成本,涌向“無人區(qū)”。

比如基于“用AI操縱AI”的想象力,在海外,一些通過大模型搭建“下一代RPA(Robotic process automation,機器人流程自動化)平臺”的公司,已經受到了資本的青睞。

最典型的案例是去年4月,含著谷歌AI核心研發(fā)團隊這一“金湯匙”出生的美國AI創(chuàng)企Adept,迅速拿下了6500萬美元的A輪融資。類似方向的公司還有得到a16z投資的Replicate,以及德國的Deepset。

“RPA+AI”這一應用方向的突破性在于,將大模型落地為調用和控制智能工具的中臺,讓企業(yè)在少代碼化操作的情況下智能化調用相應的數字工具。一名相關方向的國內創(chuàng)業(yè)者預估,“未來十年內,RPA行業(yè)可能不再單獨存在,數字化工具可以無代碼地直接連接到個體?!?/p>

2019年-2021年期間,海外流向生成式 AI 業(yè)務的資本增加了約 130%,增長主要由機器學習運維(MLOps)、文本寫作、數據等領域拉動。圖源:Base10

服務于模型訓練、管理、運維的一些中間業(yè)態(tài)也初步形成。比如,一些企業(yè)研究出了讓模型訓練成本更低、效率更高的模式,讓人們只需用一張消費級GPU的顯存,就能實現(xiàn)對ChatGPT的部分復刻。

無論是保守冷靜,還是擁抱不確定性,投資人們首先要面對的是浪潮中水漲船高的企業(yè)估值。多少是企業(yè)的本事,多少是泡沫中的水分,在被ChatGPT卷起的AI夢真正落地前,讓賽道去偽存真,也需要經歷一定的時間。

延伸閱讀:

《ChatGPT中國變形記 | 深氪》

36kr制圖

關鍵詞:

相關閱讀:
熱點
圖片 圖片