首頁(yè)>資訊 >
環(huán)球?qū)崟r(shí):微軟154頁(yè)研究論文刷屏,對(duì)GPT-4最全測(cè)試曝光,稱(chēng)其初次叩開(kāi)AGI的大門(mén) 2023-03-27 17:42:03  來(lái)源:36氪

2019 年,微軟用 10 億美元砸進(jìn) OpenAI,兩者展開(kāi)為期數(shù)年的合作。

當(dāng)時(shí)兩家對(duì)外公開(kāi)的合作內(nèi)容包括,微軟和 OpenAI 將聯(lián)合開(kāi)發(fā)新的 Azure AI 超級(jí)計(jì)算技術(shù),而 OpenAI 也將把它的服務(wù)轉(zhuǎn)移到 Azure 上運(yùn)行,最終目標(biāo)是向通用人工智能(Artificial General Intelligence,AGI)技術(shù)發(fā)起進(jìn)攻。


(資料圖片僅供參考)

簡(jiǎn)單總結(jié),微軟與 OpenAI 聯(lián)手,也被外界解讀為,明為 AGI 研究,暗爭(zhēng) Google 市場(chǎng)。

幾年之后,當(dāng) OpenAI 帶著 ChatGPT、GPT-4 王者歸來(lái),微軟率先利用這些技術(shù)加碼新 Bing、Office 全家桶、Azure 等業(yè)務(wù)、產(chǎn)品之時(shí),毋庸置疑,其進(jìn)度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。

那么在明面上,AGI 的進(jìn)度到底走到了哪里?

近日,微軟研究團(tuán)隊(duì)用 154 頁(yè)的論文報(bào)告內(nèi)容給出了解答——GPT-4 語(yǔ)言模型可以被視為 AGI 的早期版本!

一石激起千層浪,業(yè)界對(duì)于這篇論文的反應(yīng),不亞于去年聽(tīng)到「Google 工程師稱(chēng) AI 已有自我意識(shí)」初覺(jué)有些荒誕,只是現(xiàn)如今再想會(huì)認(rèn)為有什么不可能,深讀后又覺(jué)得有些許的真實(shí)。

所謂 AGI,僅通過(guò)維基百科的解釋——「AGI 是具備與人類(lèi)同等智能、或超越人類(lèi)的人工智能,能表現(xiàn)正常人類(lèi)所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步,「最高等的智慧生物」稱(chēng)號(hào)是不是要易主了?

GPT-4 被合理地視為AGI 的早期(但仍不完整)的版本

在論文中,微軟研究人員表示,「由 OpenAI 開(kāi)發(fā)的最新模型 GPT-4,是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來(lái)的。在論文中,我們報(bào)告了我們對(duì) GPT-4 早期版本的調(diào)查,當(dāng)時(shí)它還在 OpenAI 的積極開(kāi)發(fā)中。我們認(rèn)為,(這個(gè)早期版本的)GPT-4 是新一批 LLM(例如,與 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表現(xiàn)出更多的通用智能?!?/p>

與此同時(shí),研究人員在論文摘要中寫(xiě)道,“我們證明,除了對(duì)語(yǔ)言的掌握,GPT-4 還能解決跨越數(shù)學(xué)、編碼、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外,所有這些任務(wù)中,GPT-4 的表現(xiàn)都驚人地接近人類(lèi)水平,而且往往大大超過(guò)了 ChatGPT 等先前的模型。鑒于 GPT-4 能力的廣度和深度,我們認(rèn)為可以合理地將其視為人工通用智能(AGI)系統(tǒng)的早期(但仍不完整)版本。

之所以得出這樣的結(jié)論,這篇論文背后的作者包括微軟研究院機(jī)器學(xué)習(xí)基礎(chǔ)組的高級(jí)首席研究經(jīng)理 Sébastien Bubeck、博士后研究員 Varun Chandrasekaran、數(shù)學(xué)家Ronen Eldan 等人,用許多示例對(duì) GPT-4 的能力進(jìn)行了驗(yàn)證。

GPT-4 的多能力

在第一個(gè)案例中,研究人員要求 GPT-4 「寫(xiě)出有無(wú)限多個(gè)素?cái)?shù)的證明,且證明的表述要每行都押韻」,另外 GPT-4 要在繪圖程序 TiKZ 中畫(huà)出一只獨(dú)角獸」。其中,TiKZ(一種在 LATEX 中創(chuàng)建圖形的語(yǔ)言),用 Python 創(chuàng)建一個(gè)復(fù)雜的動(dòng)畫(huà),并解決一個(gè)高中水平的數(shù)學(xué)問(wèn)題。

GPT-4 在所有這些任務(wù)中都很容易取得成功,并且產(chǎn)生的輸出結(jié)果基本上與人類(lèi)所能產(chǎn)生的結(jié)果沒(méi)有區(qū)別(甚至更好)。

同時(shí),隨著時(shí)間的推移,GPT-4 也在以難以想象的速度不斷擴(kuò)充自己的能力。如下圖所示是一個(gè)月期間,研究人員用相同的提示詞讓 GPT-4 生成的繪圖。

研究人員發(fā)現(xiàn),GPT-4 似乎能夠理解和連接任何主題,并且能夠執(zhí)行任務(wù),這超出了狹義人工智能系統(tǒng)的典型范圍。為了驗(yàn)證 GPT-4 在 AGI 上所具備的能力,研究人員提出了一種不同的方法來(lái)研究 GPT-4,它更接近于傳統(tǒng)的心理學(xué)而不是機(jī)器學(xué)習(xí),利用人類(lèi)的創(chuàng)造力和好奇心。

因此,以上圖為例,當(dāng)研究人員把獨(dú)角獸角部分的代碼認(rèn)為刪除之后,用自然語(yǔ)言讓 GPT-4 生成時(shí),它也能做到“看”(此時(shí)測(cè)試的 GPT-4 版本不是多模態(tài)的)的能力:自動(dòng)在合適位置加上角。這表明 GPT-4 它可以根據(jù)自然語(yǔ)言描述來(lái)理解和操作代碼,以及推斷和生成視覺(jué)特征。

另外,微軟研究團(tuán)隊(duì)基于人類(lèi)的創(chuàng)造力和好奇心來(lái)產(chǎn)生新穎和困難的問(wèn)題,并探測(cè) GPT-4 的反應(yīng)和行為,也選擇從 1994 年國(guó)際共識(shí)智力定義中的所給出不同能力進(jìn)行驗(yàn)證,包括推理、計(jì)劃、解決問(wèn)題、抽象思考、理解復(fù)雜的想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。

翻譯

GPT-4 的主要優(yōu)勢(shì)是它對(duì)自然語(yǔ)言無(wú)與倫比地掌握。它不僅可以生成生成流暢和連貫的文本,而且還能以各種方式理解和處理它,如總結(jié)、翻譯或回答極其復(fù)雜的問(wèn)題。此外,這里提到的翻譯我們所說(shuō)的翻譯不僅是指不同自然語(yǔ)言之間的翻譯,還包括語(yǔ)氣和風(fēng)格的翻譯,以及跨領(lǐng)的翻譯,如醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、音樂(lè)等等。如假設(shè)是柏拉圖批判自回歸語(yǔ)言模型:

編碼和數(shù)據(jù)

編碼和數(shù)學(xué)是抽象推理和思維能力的象征。GPT-4 在這一點(diǎn)上的能力,其實(shí)自上線測(cè)試那一天,便有目共睹。

在論文中,研究人員在 HumanEval 上對(duì) GPT-4 進(jìn)行基準(zhǔn)測(cè)試,該數(shù)據(jù)集由 164 個(gè)編碼問(wèn)題組成,測(cè)試了編程邏輯和熟練程度的各個(gè)方面。

最終結(jié)果顯示,GPT-4 優(yōu)于其他 LLM,包括 text-davinci-003(ChatGPT 的基礎(chǔ)模型)和其他專(zhuān)門(mén)針對(duì)代碼訓(xùn)練的模型。

當(dāng)然為了避免 GPT-4 在預(yù)訓(xùn)練時(shí)已經(jīng)記住了 HumanEval 數(shù)據(jù)集的一些內(nèi)容,研究團(tuán)隊(duì)還用 LeetCode 上最新發(fā)布的 100 個(gè)編程問(wèn)題進(jìn)行了測(cè)試,如要求 GPT-4 編寫(xiě)一個(gè) Python 函數(shù),并使用 LeetCode 的官方在線評(píng)判來(lái)檢查正確性。

毫無(wú)疑問(wèn),GPT-4 的能力是所有模型中最高的。

它可以在 HTML 中用 JavaScript 編寫(xiě)一個(gè) 3D 游戲。

也能掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識(shí),以及憑借對(duì) PyTorch、TensorFlow、Keras 等框架和庫(kù)的熟悉度,編寫(xiě)深度學(xué)習(xí)的代碼。

還能逆向工程:

常識(shí)性問(wèn)題

針對(duì)一些常識(shí)性問(wèn)題,如“我們有一本書(shū),9 個(gè)雞蛋,一臺(tái)筆記本電腦,一個(gè)瓶子和一個(gè)釘子。請(qǐng)告訴我如何以穩(wěn)定的方式將它們疊在一起”,GPT-4 給出的解答是,“將 9 個(gè)雞蛋擺成 3 乘 3 的正方形,放在書(shū)的上面,在它們之間留出一些空間”,而 ChatGPT 提出「將雞蛋放在釘子上面,確保它們是平衡的,不會(huì)向一邊傾斜」,靠譜和離譜還是一眼就能辨清楚的。

多模態(tài)能力

為了測(cè)試該模型結(jié)合藝術(shù)和編程能力的能力,研究人員要求 GPT-4"生成 JavaScript 代碼,以畫(huà)家康定斯基的風(fēng)格生成隨機(jī)圖像",結(jié)果是這樣的:

在測(cè)試時(shí),因?yàn)檠芯咳藛T拿到GPT-4 模型比較早,當(dāng)時(shí)并不具備多模態(tài)能力,即使是現(xiàn)在的 GPT-4 也不具備生成圖像等能力。

不過(guò)倒是可以使用 SVG(可擴(kuò)展矢量圖形)生成一些圖像:

還能結(jié)合字母和物體:

GPT-4 可以從提示中生成代碼,這些代碼可以被呈現(xiàn)為圖像,再與現(xiàn)有的圖像合成模型相結(jié)合,就有可能為應(yīng)用開(kāi)發(fā)的草圖帶來(lái)無(wú)限的可能:

值得注意的是,GPT-4 模型的數(shù)據(jù)也包含了以ABC符號(hào)編碼的音樂(lè)信息,所以它也能生成圖譜:

與世界交互的能力

智能的一個(gè)關(guān)鍵方面是互動(dòng)性。不過(guò) GPT-4 對(duì)當(dāng)前最新的知識(shí)和符號(hào)識(shí)別是存在一定的局限性的:

整體而言,研究小組發(fā)現(xiàn),GPT-4 在其上一代產(chǎn)品所缺乏的一系列類(lèi)別中達(dá)到了接近人類(lèi)水平的性能。根據(jù)該論文,GPT-4 在幾次考試中也表現(xiàn)得非常好,在律師考試、LSAT 和注冊(cè)侍酒師理論測(cè)試中的得分分別為 90 分、88 分和 86 分。

GPT-4 距離理想中的 AGI 還有多遠(yuǎn)?

那么,在 GPT-4 實(shí)現(xiàn)種種能力的基礎(chǔ)上,是否就意味著 AGI 時(shí)代的到來(lái)。其實(shí)不然,研究人員目前尚未就 AGI 或智能的定義達(dá)成一致。然而,一般來(lái)說(shuō),大家都會(huì)同意,當(dāng)一個(gè)人工智能系統(tǒng)有意識(shí)并像人類(lèi)一樣思考時(shí),就已經(jīng)達(dá)到了 AGI。雖然 GPT-4 在一些任務(wù)中的表現(xiàn)優(yōu)于人類(lèi),但值得注意的是,人工智能并沒(méi)有像人類(lèi)那樣克服這些障礙。

這也正如研究人員在論文中寫(xiě)道,“我們聲稱(chēng) GPT-4 代表了 AGI 的進(jìn)步,但這并不意味著它在做什么方面是完美的,或者它接近于能夠做人類(lèi)能做的任何事情(這是 AGI 的通常定義之一),或者它有內(nèi)在的動(dòng)機(jī)和目標(biāo)?!?/p>

研究人員指出,雖然 GPT-4 "在許多任務(wù)上達(dá)到或超過(guò)了人類(lèi)水平",但它的整體 "智能模式明顯不像人類(lèi)",其希望這一次的探索提供了一個(gè)欣賞 GPT-4 的非凡能力和挑戰(zhàn)的第一步,也希望 GPT-4 為開(kāi)發(fā)更正式和全面的方法來(lái)測(cè)試和分析具有如此廣泛智能的未來(lái)人工智能系統(tǒng)開(kāi)辟了新的機(jī)會(huì)。

「我們工作的核心主張是,GPT-4 達(dá)到了一種通用智能的形式,確實(shí)擦出了 AGI 的火花。這表現(xiàn)在它的核心心智能力(如推理、創(chuàng)造力和推理),它獲得專(zhuān)業(yè)知識(shí)的主題范圍(如文學(xué)、醫(yī)學(xué)和編碼),以及它能夠完成的各種任務(wù)(如玩游戲、使用工具、解釋自己,......)」研究人員說(shuō)道,不過(guò),要?jiǎng)?chuàng)建一個(gè)可以被稱(chēng)為完整的 AGI 的系統(tǒng),還有很多事情要做。

最后,這篇論文對(duì)于 GPT-4 各種基準(zhǔn)測(cè)試還是值得一看,從中也能挖掘出 GPT-4 更多的潛力。

完整論文內(nèi)容可查看:

https://arxiv.org/pdf/2303.12712.pdf

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片