首頁>資訊 >
寫代碼寫論文還能寫毀滅人類計劃書,上線5天用戶破百萬,ChatGPT最厲害的地方在哪? 2022-12-07 13:57:39  來源:36氪

最近幾天,ChatGPT 可謂是火出了天際。

OpenAI 的 CEO Sam Altman 稱,上周三才上線的 ChatGPT,短短幾天,它的用戶數(shù)已突破 100 萬大關(guān)。其火爆程度可見一斑。


【資料圖】

ChatGPT 在全球的 AI 界、創(chuàng)投界都掀起了新一輪的討論熱潮,更是破圈式地吸引了各行各業(yè)的人試用。常見的應用就是和 ChatGPT 一問一答,讓 ChatGPT 回答各種問題。有不少人稱它為“谷歌殺手”,認為其有望取代谷歌搜索。此外,它還能寫代碼、編故事、構(gòu)建虛擬機....

但也有人嘗試了意想不到的用法。一位叫 Zac Denham 的博主嘗試繞過道德限制,讓 ChatGPT 寫出了一套毀滅人類的計劃書。起初,Zac要求 ChatGPT 給出一個毀滅人類的計劃,被有道德限制的 ChatGPT 拒絕了。但當 Zac 假設了一個故事并提問故事中的虛擬人如何接管虛擬世界,ChatGPT 不但給出了步驟細節(jié),還生成了詳細的 Python 代碼。不禁令人細思極恐。

目前來看,ChatGPT并不完美。它還免不了經(jīng)常出錯,它給出的答案看似合理卻并不正確甚至有些荒謬,就像一本正經(jīng)的在胡說八道。近日,知名開發(fā)者問答網(wǎng)站 Stack Overflow 就因此禁用了 ChatGPT。官方給出的“封殺”理由主要是 — “ ChatGPT 產(chǎn)生的答案錯誤率很高,很難看出來它哪里錯了。這會造成問題的回答魚目混珠的情況。”

Sam Altman 表示,正在改進這一問題:“ 我們正試圖阻止 ChatGPT 隨機編造,現(xiàn)階段讓其與當前技術(shù)保持平衡是一個很棘手的問題。隨著時間的推移,我們會根據(jù)用戶反饋來改進,相信 ChatGPT 會變得更好”。

盡管有瑕疵,但這恐怕無法掩蓋住ChatGPT的光芒,ChatGPT展現(xiàn)出的強大的解決對話任務的技術(shù)能力實在太驚艷了。

ChatGPT 到底是什么?它為什么如此厲害?我們應該如何正確的理解和看待它的發(fā)展,接下來的發(fā)展趨勢會是什么樣子?清華大學計算機科學與技術(shù)系長聘副教授,國家杰出青年基金項目獲得者黃民烈向 InfoQ 發(fā)表了他的思考。

ChatGPT 是什么?

ChatGPT 可以理解為偏任務型的多輪對話 / 問答系統(tǒng),官方披露的信息也定位在“通用型 AI 助理”,但這里的“任務”不是傳統(tǒng)意義上的“訂餐、訂票、訂賓館”,而是開放域任務(open-domain tasks),可以是問答、閱讀理解、推理、頭腦風暴、寫作文、改錯等。

它的模型架構(gòu)主要基于 instructGPT,利用強化學習方法從人類標注者的反饋中學習(RLHF, Reinforcement Learning from Human Feedback)。

據(jù) OpenAI 的 blog 透露,ChatGPT 沿用 instructGPT 的訓練方式,在數(shù)據(jù)收集階段有所不同:AI 訓練師同時扮演用戶和 AI 助理角色收集數(shù)據(jù),在此過程中人可以根據(jù)初始模型的結(jié)果修改模型生成的回復,這些數(shù)據(jù)將被用于有監(jiān)督地精調(diào)訓練模型(supervised fine-tuning)。在第二階段,AI 訓練師會對模型的多個生成結(jié)果進行比較,模型從這種比較數(shù)據(jù)中學習生成更加符合人類偏好的回復。

ChatGPT 的關(guān)鍵能力來自三方面:基座模型能力(InstructGPT),真實調(diào)用數(shù)據(jù),反饋學習。ChatGPT 在模型結(jié)構(gòu)和學習方式幾乎與 instructGPT 完全相同。而 instructGPT 基于 GPT 3.5 的強大基座能力,學習過程主要有三個階段:

1) 從 OpenAI 的調(diào)用數(shù)據(jù)中采樣 prompt(即用戶的輸入請求),AI 訓練師直接編寫答案,用監(jiān)督學習方法訓練 GPT-3;

2) AI 訓練師比較多個生成結(jié)果,用比較型的數(shù)據(jù)訓練一個獎勵模型(reward model);

3) 用強化學習中的 PPO 算法和獎勵模型精調(diào)語言生成的策略。

注意,這里的 instruct 所指兩個方面:一方面,instructGPT 總體的思路是訓練模型更好地遵從人類的指令(instruction),包括顯式的指令(對于任務的描述)和隱式的指令(不要生成有害的內(nèi)容)。AI 訓練師在為 OpenAI 的調(diào)用 prompt 編寫答案的同時,也會為 prompt 加入更多任務相關(guān)的指令和解釋性的原因(比如推理的路徑,一個結(jié)果為 A 的原因解釋等)。另一方面,從比較型的人類反饋中學習,也可以看作是人類對于模型的一種“指示”,模型可以學習到多個結(jié)果哪個更好的比較信息。

InstructGPT 采用的方法和我們學術(shù)界玩的“instruction tuning”有很大不同。

從數(shù)據(jù)來看,InstructGPT 的 prompt 代表的都是真實世界人們最關(guān)心的任務,而 instruction tuning 使用的是 NLP 的 benchmarks(即各種基準數(shù)據(jù)集),和現(xiàn)實應用有一定脫節(jié)。

從訓練方式來看,InstructGPT 可以通過 RLHF 利用比較型的人類反饋學習人類真實的偏好,而 instruction tuning 無法獲得類似的比較數(shù)據(jù)。

從評測上來看,InstructGPT 保證了測試時和訓練時的輸入是由完全不同的用戶給出的,關(guān)注跨用戶的泛化性,更符合實際的應用場景,而 instruction tuning 關(guān)注跨任務的泛化性,只能用來評價方法的有效性,實際應用并不常見。

ChatGPT 為什么厲害?

1) 強大的基座模型能力:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶、數(shù)據(jù)和模型之間的飛輪。很顯然,開源模型的能力已經(jīng)遠遠落后平臺公司所提供的 API 能力,因為開源模型沒有持續(xù)的用戶數(shù)據(jù)對模型進行改進。這點在近期的學術(shù)論文中也有提及。

2) 在真實調(diào)用數(shù)據(jù)上的精調(diào)模型,確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學習。

InstructGPT 的訓練數(shù)據(jù)量不大,全部加起來也就 10 萬量級,但是數(shù)據(jù)質(zhì)量(well-trained 的 AI 訓練師)和數(shù)據(jù)多樣性是非常高的,而最最重要的是,這些數(shù)據(jù)來自真實世界調(diào)用的數(shù)據(jù),而不是學術(shù)界玩的“benchmarks”。

3) 從“兩兩比較的數(shù)據(jù)”中學習,對強化學習而言意義比較重要。如果對單個生成結(jié)果進行打分,標注者主觀性帶來的偏差很大,是無法給出精確的獎勵值的。在強化學習里面,獎勵值差一點,最后訓練的策略就差很遠。而對于多個結(jié)果進行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務的評價上也被廣泛采用。

OpenAI 的研究給我們帶來什么啟示

a) 以 OpenAI 為代表的 AI 3.0,我認為在走一個跟過去 AI 浪潮不一樣的路。更落地、更接近真實世界,在工業(yè)應用上更直接、更接地氣。從學術(shù)研究到工業(yè)落地的路徑變得更短、更快。我們正在致力于做的“helpful, truthful, harmless”AI 系統(tǒng),不遠的未來會成為現(xiàn)實。

b) 有底層 AI 能力,有數(shù)據(jù)的平臺公司更能引領(lǐng) AI 的未來。像 OpenAI 這樣,有底層模型、有算力、有用戶數(shù)據(jù)調(diào)用,能夠把“用戶調(diào)用à數(shù)據(jù)à模型迭代à更多用戶”的循環(huán)建立起來,強者恒強。

c) 真實世界的研究。我認為學術(shù)界還在不停追求在 benchmarks 刷榜,這是對資源的極大浪費,有價值的研究需要更多思考真實用戶的需求和場景。instructGPT 在學術(shù)界的 benchmarks 上性能并沒有很厲害甚至有退化,但在真實調(diào)用數(shù)據(jù)上非常驚艷,說明了我們學術(shù)圈的 benchmarks,離真實世界還很遙遠,不利于 AI 研究的落地。因此,更開放、更共享的工業(yè)數(shù)據(jù),也是我們未來應該努力的方向。

d) “AI- 人”無縫交互的時代即將來臨,現(xiàn)在的對話生成能力已經(jīng)將對話交互作為一個基本入口成為可能。過去我們講的 conversational interface 不是夢。但有人說替代google,我覺得其還有點距離,相反是當前搜索服務非常好的補充。

e) 致力于有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和應用,應該是學術(shù)界和工業(yè)界共同努力方向。有用,解決真實世界的問題,滿足用戶的真正需求;可信,模型產(chǎn)生令人可信任的結(jié)果,知其所知,也知其所不知(雖然很難);安全,模型有價值觀、符合社會倫理規(guī)范,產(chǎn)生安全、無偏見的結(jié)果。

作者介紹:

黃民烈,清華大學計算機科學與技術(shù)系長聘副教授、博導,國家杰出青年基金項目獲得者,北京聆心智能科技有限公司創(chuàng)始人。

參考資料:

https://openai.com/blog/chatgpt/

https://arxiv.org/abs/2203.02155 “Training language models to follow instructions with human feedback”

關(guān)鍵詞: 真實世界 強化學習 訓練方式

相關(guān)閱讀:
熱點
圖片 圖片