首頁>資訊 >
全球看熱訊:火爆全網(wǎng)的 ChatGPT,還干不掉 Google 搜索 2022-12-10 18:58:57  來源:36氪

短短幾日,OpenAI 的聊天機器人ChatGPT 席卷了互聯(lián)網(wǎng),用戶數(shù)輕而易舉突破百萬。

答疑解惑、編寫代碼、撰寫論文、創(chuàng)作詩歌和鋼琴曲,當人類絞盡腦汁設(shè)下「九九八十一難」,ChatGPT 基本問什么答什么,就算不會也能編得像模像樣。


(資料圖片僅供參考)

到目前為止,在推向大眾的文本生成 AI 里,ChatGPT 是最好的那一個,更何況還免費使用。

當 ChatGPT 春風得意馬蹄疾,也有人看到它光環(huán)下的失意,程序員和文字工作者的飯碗可能不保,連 Google 等傳統(tǒng)搜索引擎也可能被它革了命。

有了搜索引擎,我們依然需要花大量時間翻網(wǎng)頁找答案,如果 AI 能直接把答案遞到你眼前,還能保證正確率,那豈不是更好?

但問題就在于「如果」。

ChatGPT:我無法與 Google 相比

12 月 1 日,開發(fā)人員 Josh Kelly 曬出同一個代碼問題在 Google 和 ChatGPT 的不同結(jié)果,ChatGPT的答案看起來質(zhì)量更高,讓他感嘆「Google is done」(Google 完蛋了)。

初出茅廬的 ChatGPT,真的把刀架在 Google 搜索的脖子上了嗎?

先看看兩者在定義上的區(qū)別。

搜索引擎的核心是海量信息集合,而非信息創(chuàng)造。你在搜索框輸入關(guān)鍵字,搜索引擎根據(jù)算法,抓取、索引、排序與你的查詢匹配的結(jié)果,然后你看到了大量的鏈接,再從中尋找自己需要的信息。

而 ChatGPT 屬于 AIGC(人工智能生產(chǎn)內(nèi)容),是一種新的內(nèi)容創(chuàng)作方式。它已經(jīng)被數(shù)據(jù)集訓(xùn)練完畢,通過一對一的對話和類似人類的口吻,給出單一、即時的答案,還能結(jié)合上下文,實現(xiàn)多輪對話,幫你解決更為復(fù)雜的、連續(xù)性的問題。

你可以一步步引導(dǎo)規(guī)則,讓它設(shè)計游戲等產(chǎn)品,或者給它一段程序,讓它檢查 bug,還可以給它演示案例,讓它舉一反三?;釉綇?fù)雜,ChatGPT 的能力也會越豐富,只當一個回合的搜索引擎用,倒有些「屈才」。

比傳統(tǒng)的聊天機器人更聰明,比人類的問答網(wǎng)站更快捷,ChatGPT 讓查找信息的過程更加直觀和簡單。

一個是生成式搜索,一個是大規(guī)模搜索,目前的 ChatGPT 還遠遠取代不了 Google。

在 ChatGPT 的基礎(chǔ)設(shè)定里,信息的時效性已經(jīng)落后了。ChatGPT 基于互聯(lián)網(wǎng)的數(shù)十億個文本示例訓(xùn)練,學(xué)習生涯停留在了 2021 年,它也沒有聯(lián)網(wǎng),不實時調(diào)用外部網(wǎng)絡(luò)資源,無法像 Google 地圖般根據(jù)位置為你推薦餐館,不能幫你打開 Twitter、Facebook。

相比之下,Google 既有龐大的索引網(wǎng)站數(shù)據(jù)庫,也提供圖像、地圖等功能和工具,讓你快速訪問其他網(wǎng)站更是它的「基本素養(yǎng)」。事實上,Google 最受歡迎的搜索就是「Facebook」「亞馬遜」等關(guān)鍵詞。

不過,ChatGPT 被吐槽最多的還是它的準確性,列對了雞兔同籠方程卻解錯,硬說豆瓣的創(chuàng)始人不是阿北,腦洞大開胡編亂造西游記結(jié)局,一本正經(jīng)地胡說八道就罷了,偏偏語氣十分自信,也不提供資料來源。你使用搜索引擎時,至少可以憑借多個信源交叉驗證。

12 月 4 日,馬斯克透露 ChatGPT 可以訪問 Twitter 數(shù)據(jù)庫,這意味著 ChatGPT 必然學(xué)習了許多缺少事實核查的數(shù)據(jù)。正因為垃圾答案泛濫,程序員問答網(wǎng)站 Stack Overflow 從 12 月 5 日開始,暫時禁止用戶分享 ChatGPT 生成的內(nèi)容。

另外,ChatGPT 的回答混入了不少片湯話,被調(diào)侃為「水文神器」。OpenAI 解釋,這主要是因為訓(xùn)練數(shù)據(jù)偏差(訓(xùn)練者更喜歡看起來更全面的、更長的答案)和過度優(yōu)化。

種種不足擺在臺面上,ChatGPT 暫時不會威脅到搜索引擎。

《2001 太空漫游》的 AI 殺人事件.

雖然 ChatGPT 比其他 AI 更像人了,本質(zhì)上還是「隨機鸚鵡」,離不開大模型、大數(shù)據(jù)、大算力,它的知識來自訓(xùn)練數(shù)據(jù)中的統(tǒng)計規(guī)律,并不理解自己所說的話。12 月 5 日,《時代》雜志「專訪」了 ChatGPT,在被問到「大型語言模型有哪些限制」時,ChatGPT 回答道:

大型語言模型的一個限制是,我們無法理解我們生成的單詞的上下文或含義。我們只能根據(jù)給定的訓(xùn)練數(shù)據(jù),根據(jù)某些單詞或單詞序列一起出現(xiàn)的概率來生成文本。這意味著我們無法為我們的回答提供解釋或推理,并且我們可能不會總是生成完全連貫或在對話上下文中有意義的回答。

但 ChatGPT 回避了一個問題:什么是理解?「理解」是屬于人類的概念,它能否用在 ChatGPT?如果能用,它的理解是否約等于「生成有意義的回答」這個結(jié)果,論跡不論心?

至少在未來一段時間內(nèi),我們或許更需要擔心,當越來越多的網(wǎng)絡(luò)內(nèi)容由類似的模型生成,搜索引擎給出的結(jié)果,質(zhì)量是會提高還是降低。

我還問了問 ChatGPT 本尊,它的態(tài)度十分謙虛,不覺得應(yīng)該拿它和 Google 比較:

我是一個大型語言模型,無法與 Google 或任何其他搜索引擎進行比較。我的目的是通過回答用戶的提問來幫助用戶獲得信息,而不是提供搜索功能。與搜索引擎相比,我的優(yōu)勢在于能夠回答復(fù)雜的問題,并且可以提供更加個性化和詳細的信息。相比之下,我的劣勢在于無法提供搜索功能,也無法提供最新的信息。

AI 可能是搜索引擎的未來

雖然 ChatGPT 仍在起步,沒有在搜索上比 Google 做得更好,但它可能改變我們在線搜索信息的方式,讓搜索技術(shù)更上一層樓。

眼下就有一個簡單的例子,現(xiàn)在已經(jīng)有大量將 ChatGPT 嵌入 Google 的插件出現(xiàn),其中有些插件將 ChatGPT 的結(jié)果顯示在網(wǎng)頁右側(cè),一次搜索兼顧兩種體驗。

再參照 ChatGPT 和圖像生成模型 Stable Diffusion 的聯(lián)動(可能是因為 AI 更懂 AI,ChatGPT 的描述更容易被 Stable Diffusion 提取,最終的圖片質(zhì)量更高),ChatGPT 或許也可以用于解釋、指導(dǎo)關(guān)鍵詞,幫助我們更好地用搜索引擎查找信息。

此外,ChatGPT 的時效性、準確性不足,也并非是無解的。

一方面,知乎答主、自然語言處理專家@張俊林指出,近乎實時地將新知識融入大規(guī)模語言模型,非常有挑戰(zhàn)性,一種解決辦法是,把它存到傳統(tǒng)搜索引擎的索引里,ChatGPT 如果回答不了時效性的問題,可以轉(zhuǎn)向搜索引擎抽取對應(yīng)的答案。

另一方面,彭博社報道,OpenAI 正在開發(fā)一個名為 WebGPT 的 AI 系統(tǒng),WebGPT 將能夠更準確地回答問題,甚至還能說明引用的來源。

以上這些還是 AI 和搜索引擎的結(jié)合體。如果我們更大膽地設(shè)想一番,不考慮技術(shù)限制,拋去搜索引擎,存在一個無所不知的 AI,以易于理解的問答形式,提供與問題相關(guān)且準確的信息,這是未來搜索的理想模樣嗎?

不少 AI 專家認為愿景本身就有問題。德國魏瑪包豪斯大學(xué)研究員 Benno Stein 表示,它可能隱藏現(xiàn)實世界的復(fù)雜性:

問題不在于現(xiàn)有技術(shù)的局限性。即使擁有完美的技術(shù),我們也無法得到完美的答案。我們不知道什么是好的答案,因為世界很復(fù)雜,但當我們看到這些直接的答案時,我們會停止思考。

那么如何讓答案顯得更「復(fù)雜」?有人覺得,簡單地提供一份文件清單,會比直接給出答案更有用;有人則建議,可以解釋答案并給出不同觀點的利弊,讓人既知其然也知其所以然。

圖片來自:Getty Images

但是大多數(shù)時候,本不存在真正的完美的答案,準確、詳細這些衡量標準,也更針對事實類、知識類問題,而非那些天馬行空的開放式命題。

以答案的準確或者詳細與否框定 AI,反而有些「著相」。不妨讓我們回到上文提到的定位問題,ChatGPT 是生成式搜索,Google 是大規(guī)模搜索,前者是 chat,后者是 search,它們在本質(zhì)上就是不同的。

ChatGPT 火了一段時間了,我們對它有了一個大概的共識:它的錯誤答案不少,特別在知識類和事實類問題上,但如果把它放在創(chuàng)作的一個環(huán)節(jié),可以用來激發(fā)靈感、提高生產(chǎn)力。

它不是搜索引擎,也不像聊天機器人,更像一個隨時供你咨詢的「超級大腦」。換句話說,ChatGPT 不一定會顛覆 Google,但它從根本上改變了我們和知識的相處形式,你可以和它談星星談月亮,從詩詞歌賦說到人生哲學(xué)。

ChatGPT 對創(chuàng)造力、開闊思維的激發(fā),可能比事實類信息的準確性更加重要,它完全可以和搜索引擎、人類勞動互相補充,不必你死我活,各自完成通向未知的一塊拼圖,這也是我們對「搜索」的根本需要。

搜索引擎不僅僅是個問答機器

自 ChatGPT 橫空出世,不乏 Google 搜索將被取代的聲音。

其實 Google 并沒有掉隊,它在 DeepMind 的大型語言模型 Chinchilla 上訓(xùn)練 AI 聊天機器人 Sparrow,也開發(fā)了對話神經(jīng)語言模型 LaMDA。

去年 5 月,Google 研究人員發(fā)了一篇題為「重新思考搜索」的論文,描述了一種新型搜索引擎:大型語言模型借助算法提供簡潔的專業(yè)答案,用戶無需在大量網(wǎng)頁列表中搜索信息,聽起來就是 ChatGPT 的模樣。

為什么 Google 沒有像 OpenAI 一樣,直接向大眾推出類似 ChatGPT 的產(chǎn)品,或者將它集成在自己的搜索之中?Alphabet 工程師@hncel認為,問題主要在于成本和延遲:

像 GPT 這樣的大型語言模型是 Google 主要研究的領(lǐng)域之一,Google 有大量預(yù)算與人員來處理這些模型,但在最大的 Google 產(chǎn)品(例如搜索、Gmail)中實際使用這些語言模型的經(jīng)濟性還不完全存在。發(fā)布有趣的測試版是一回事,但將它深入集成到一個每天服務(wù)數(shù)十億個請求的系統(tǒng)中,考慮到服務(wù)的成本、增加的延遲,則是另一回事。將成本降低至少 10 倍,才能將這樣的模型集成到搜索等產(chǎn)品中。

與此同時,大型語言模型也會影響 Google 搜索當前的商業(yè)模式——Google 母公司 Alphabet 2021 年收入 2576 億美元,約有 81% 來自廣告,其中大部分是 Google 的按點擊付費廣告。

像 ChatGPT 這樣的 AI 大大減少了頁面數(shù)量,阻礙了人們?yōu)g覽和點擊更多廣告,那么廣告收入也會隨之下降。

話說回來,ChatGPT 的爆火,也讓我們或多或少地意識到,搜索引擎「索引、檢索和排序」的固有模式已經(jīng)統(tǒng)治了 20 多年,Google 每年都會對搜索引擎進行數(shù)千次更改,其中大多數(shù)都很微小,并沒有發(fā)生根本性的變化。

1998 年,一對斯坦福大學(xué)的研究生發(fā)表了一篇關(guān)于新型搜索引擎的論文:

在這篇論文中,我們介紹了 Google,這是一種大規(guī)模搜索引擎的原型,它大量使用了超文本中的結(jié)構(gòu)。Google 有效地抓取和索引網(wǎng)絡(luò),并產(chǎn)生比現(xiàn)有系統(tǒng)更令人滿意的搜索結(jié)果。

過去的創(chuàng)新變成了現(xiàn)在的傳統(tǒng),Google 等傳統(tǒng)搜索引擎面臨的對手不止是未來的 AI。

比如,已經(jīng)有人將 TikTok 稱作「新的 Google」,國外網(wǎng)友使用 TikTok 搜索,有點像我們在小紅書查找攻略,在美食、片單等領(lǐng)域確實好用。這背后隱藏著一個趨勢:在 TikTok 和抖音「稱霸」的世界里,互聯(lián)網(wǎng)比以前更直觀、更視覺化、更具交互性,搜索也不例外。

但 TikTok 不至于真的動搖 Google。如果查找更多信息、訪問更多網(wǎng)站,你依然要回到 Google。

既然變化已經(jīng)發(fā)生,Google 也需要通過更自然、更直觀的方式,帶來更好的搜索體驗。

近幾年來,因為人工智能、機器學(xué)習和計算機視覺等方面的進步,Google 一直向這個方向轉(zhuǎn)變,包括引入相機和麥克風搜索、圖片和文本的多重搜索、地圖中的沉浸式視圖等等。

簡單來說,Google搜索的輸入和輸出,都變得更加「多感官」,也變得更加主動,更能猜中用戶的心思。

機器學(xué)習模型 MUM 讓 Google 搜索引擎更「聰明」.

許多 Google 與搜索有關(guān)的項目仍在探索和測試階段,今年 9 月的年度 Search On 活動上,負責 Google 搜索產(chǎn)品的副總裁 Liz Reid 舉了一個未來可能的例子:

如果 Google 知道你對木工感興趣,它在回答你搜索的某個問題之外,還會向你展示你不知道的新工具、你從未聽說過的 YouTube 博主,以及你可以去哪里學(xué)習新技能等等。

Liz Reid 相信,Google 搜索不僅僅是一個反應(yīng)快速的問答機器,而是一個用于探索、發(fā)現(xiàn)、學(xué)習你還沒有明確答案的事物的系統(tǒng)。

某種程度上,迭代的搜索引擎也好,進擊的通用 AI 模型也罷,一個是固有框架的微調(diào),一個是另起爐灶的改革,它們都在讓知識更容易被獲取,讓信息篩選更加智能,降低你的學(xué)習門檻,縮短你的學(xué)習過程。

Google 高級副總裁 Prabhakar Raghavan 提出了一個很有意思的觀點,搜索還是一個遠沒有解決的問題,「如果你把所有的機器都給我,我仍然會被人類的好奇心和認知所束縛」。

搜索得到更好的答案之前,我們要先知道如何提出問題。未來,組織資料的能力可能不再稀缺,基于個體經(jīng)驗和情感的提問能力和原創(chuàng)觀點更為珍貴。當你被引到知識的大門前,人之為人的思辨性和創(chuàng)造力,則以前所未有的地位被凸顯出來。

關(guān)鍵詞: 搜索引擎 語言模型 機器學(xué)習

相關(guān)閱讀:
熱點
圖片 圖片