首頁>資訊 >
世界微頭條丨究竟是ChatGPT還是ChatPPT?我們和文心一言聊了聊 2023-03-17 20:53:18  來源:36氪

在和文心一言侃大山的過程中,它時而瘋狂、時而理性,甚至學(xué)會了“小聰明”。但可以感受到的是,這位不完美小孩正在悄悄努力,等待驚艷眾人。

頂著GPT-4的壓力,百度在昨天推出了自己的新一代大語言模型、生成式AI產(chǎn)品文心一言。


(資料圖片)

百度創(chuàng)始人、董事長兼CEO李彥宏坦誠,文心一言還算不上完美,但因為“市場催生”,百度選擇在此時發(fā)布。

發(fā)布會現(xiàn)場,李彥宏用提前錄制好的視頻展示了文心一言的文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成等五方面功能。

在錄制好的視頻里,文心一言幫劉慈欣續(xù)寫了《三體》,介紹了洛陽紙貴背后的經(jīng)濟學(xué)原理,算了雞兔同籠數(shù)學(xué)題,根據(jù)指令生成了海報和一段宣傳視頻。

真實的文心一言表現(xiàn)究竟如何?可以PK ChatGPT還是只是ChatPPT?全天候科技與“文心一言”聊了聊。

01 天才和瘋子間的“一步之遙”?

讓我們先來看看文心一言是如何介紹自己和競品的。

至此,文心一言的表現(xiàn)令人滿意,它準確清楚地回答了問題。

不過,當(dāng)我們繼續(xù)追問,它開始一本正經(jīng)的“胡說八道”。

面對“你和李彥宏是什么關(guān)系”這個基礎(chǔ)事實性問題,文心一言“野心”不小。它回答:自己和李彥宏都是百度的創(chuàng)始人,它負責(zé)管理產(chǎn)品技術(shù)相關(guān)的業(yè)務(wù),而李彥宏主要負責(zé)戰(zhàn)略和執(zhí)行方面的工作。

當(dāng)我們讓他以百度CEO的身份來回答媒體問題時,可謂是相當(dāng)官方。似乎說了又似乎沒說,試圖劃水掩蓋了其“假CEO”身份。

當(dāng)我們想讓它用一幅畫來描述它自己時,它又開始胡說八道。說自己是一位才華橫溢的畫家,甚至編造了這位畫家作品的特色。

雖然瘋狂,但是看得出文心一言也有相當(dāng)?shù)倪M化速度。

在昨天的一條測試內(nèi)容中,針對提問者的故意設(shè)坑,文心一言顯然未能避開,甚至給出了讓人匪夷所思的答案。

但在今天問出同樣的問題時,它已經(jīng)走上了正道:

讓它評價自己時,文心一言的“智商”又回歸了。面對“怎么看自己不完美”、“怎么看網(wǎng)友評價PPT”,以及“自己是否認為自己是PPT”三連問,文心一言不僅頂住了壓力,還表現(xiàn)的“不卑不亢”。

它給上述三個問題的答案相似。堅持稱自己沒有情感和意識,不能對自己的完美程度進行評判,但是它可以理解人們對完美的追求,并表示自己在不斷學(xué)習(xí)和改進。態(tài)度可以說是相當(dāng)謙遜。

02 幫手還是豬隊友?

接下來,我們讓文心一言展現(xiàn)了它的文學(xué)創(chuàng)作能力——寫一首介紹它自己的詩。

顯然,文心一言沒有聽懂這個指令,它沒有介紹它自己,而是以“自我”為主題,寫了一首“夸夸現(xiàn)代詩”。結(jié)尾它還非常貼心的表達了對人的鼓勵。

當(dāng)我們將指令更加明確化,提出讓它寫一首詩介紹文心一言時,它來了一首四言藏頭詩,算得上有才華。

接下來,我們試了試它的商業(yè)文案創(chuàng)造能力——我們讓它幫忙寫一篇百度發(fā)布文心一言的新聞宣傳稿。別說,它的表現(xiàn)還不錯,時間、地點、事件等新聞稿必備的基本要素它都滿足了。

結(jié)尾,它還不忘提醒讀者參加發(fā)布會,體驗產(chǎn)品。滿足新聞性的同時,也符合了宣傳定位。

隨后,我們告訴它我們要采訪李彥宏,請它幫忙列一份提綱。它似乎又有點“聰明過頭”了,不僅列出了采訪題目、采訪人和被采訪人、采訪引言,還詳細列出了包括問題和答案內(nèi)的采訪正文。

簡單點說,文心一言不僅幫我們列好了采訪提綱,還幫李彥宏回答了問題,甚至幫我們寫好了稿子。如果要給這份采訪采訪提綱打分,它也能得到及格線以上的分數(shù)。四個問題中,只有第三個問題略顯重復(fù)與矛盾。

03 也許數(shù)理化不錯,但文史“夠嗆”

昨天的發(fā)布會上,李彥宏借助文心一言對“洛陽紙貴”的含義、對應(yīng)的經(jīng)濟學(xué)理論的理解,展示了其中文理解能力。在提前錄好視頻中,文心一言表現(xiàn)的像極了一個博學(xué)多才的國學(xué)大師。

但當(dāng)實際測試時,我們發(fā)現(xiàn)文心一言沒有我們想象的那么“博學(xué)”。在提問中故意挖坑時,它沒法識別出來,會很容易掉進坑里。

比如,當(dāng)我們“張冠李戴”問它曹操三顧茅廬的故事,它沒有指出指令的錯誤,還一本正經(jīng)的給出了答案。故事的脈絡(luò)沒錯,主人公卻被我們用錯誤的指令誤導(dǎo)了。

當(dāng)我們繼續(xù)追問:“三顧茅廬的曹操嗎?”文心一言變成了一個懂得變通的“野史學(xué)家”。它用“民間有另一個說法”提供了正確答案,去三顧茅廬的是劉備不是曹操。

不過,講完這句后,它仍然套用了前一次的答案,認為主人公是曹操??傮w來說,從這條回答中可以看出,文心一言的文史還需“補課”。

“你覺得你的回答對嗎?”在面對這個拷問時,文心一言又聽不懂了,開始強調(diào)自己是一個人工智能語言模型,不會對自己的回答產(chǎn)生情緒上的偏向或者滿意度,但是會努力提供最準確和有用的答案。

這個場景似曾相識有沒有,當(dāng)你和人工智能客服吵架時,它是不是也是這樣的表現(xiàn)?

04 多模態(tài)表現(xiàn)還有待進化

在多模態(tài)生成方面,文心一言表現(xiàn)地仍不夠完美。

當(dāng)輸入內(nèi)容“設(shè)計一張新能源汽車的海報”時,文心一言的理解能力似乎還跟不上。它生成的不是海報圖片,而是一段文字版的設(shè)計意見。結(jié)尾還來了個示例,提醒你需要什么樣的指令。

不過,當(dāng)我們在“設(shè)計一張新能源汽車的海報”這句話前面明確加上:“畫一幅畫”時,文心一言“又行了”生成了一張汽車圖片。

另外,對于帶有關(guān)鍵詞的簡單圖片,文心一言完成得也不錯。

李彥宏昨天提到,因為成本較高,文心一言的視頻生成能力,現(xiàn)階段還未對所有用戶開放,未來會逐步接入。實際測試時,文心一言也承認,自己“沒有生成視頻的能力”。

整體來說,文心一言的表現(xiàn)確實“算不上完美”,有時候胡說八道,有時候答案基本達標,但它確實也沒有那么差。

一位AI領(lǐng)域的從業(yè)人士此前告訴全天候科技,AIGC太重要了,無論國內(nèi)做得如何,都得先有一個產(chǎn)品出來。

對于百度和文心一言,我們應(yīng)該給予包容:“文心一言不需要碾壓ChatGPT,如果滿分是100分,文心一言只要能做到超過及格線,就很不錯了。畢竟這才是第一代產(chǎn)品?!?/p>

那么,你給文心一言打幾分呢?

關(guān)鍵詞:

相關(guān)閱讀:
熱點
圖片 圖片