首頁>資訊 >
環(huán)球看熱訊:AI 畫得太逼真,以至于連 AI 自己都認(rèn)不出來了 2023-03-31 16:50:24  來源:36氪

“特朗普被逮捕了?。?!”

“消息”首先在 Twitter 傳開,熱度蹭蹭地竄升。“始作俑者” Eliot Higgins 馬上出來澄清:“別誤會了,照片是我用 Midjourney 生成的,為此還花錢買了 V5 版本。”


(資料圖片)

特朗普被捕了丨來自 Twitter @Eliot Higgins

但來不及了,這一系列照片(因?yàn)镠iggins還連載了“入獄”后續(xù))在 Instagram、TikTok 上“瘋傳”,全民狂歡的勁頭就像一起經(jīng)歷真實(shí)的政治事件——川普“入獄”、“越獄”、“出獄”、“再就業(yè)”等等層出不窮。

特朗普的獄中生活丨來自 Twitter@Eliot Higgins

由 AI 生成的內(nèi)容“謊騙”過人眼,起初人們還挺興奮,但問題是,這種興奮在最近發(fā)生得過于頻繁,它開始轉(zhuǎn)變?yōu)橐环N惶恐。

圖像之外,還有文字——包括 Science、Nature 等在內(nèi)的學(xué)術(shù)期刊對于 ChatGPT 的使用明令限制,不許將其列為論文合著者;一些高校甚至中學(xué)老師開始頻繁抱怨,學(xué)生用 AI 生成的作業(yè)越來越多,也越來越難以甄別。

那么,在目前這個階段,我們還剩下哪些辦法能識別出“AI 出品”呢?

讓 AI 指認(rèn) AI:26%,我說的是準(zhǔn)確率

如果你也一瞬間將“川普入獄圖”信以為真,或根本讀不出一篇中規(guī)中矩的新聞稿究竟是否出自人類之手,別懊惱!這確實(shí)不太容易。

幾年前 Deepfake 換臉圖片中,還常會因?yàn)槟槻繄D像疊加不好,出現(xiàn)“雙下巴”等醒目的錯亂。然而今天 Midjourney 連結(jié)構(gòu)最難把握的手都能畫好了。

Deepfake 臉部重合問題丨源自 Medium 作者Jonathan Hui

就連 AI 自己,對于什么內(nèi)容是自己生成的,也不太確信。OpenAI 做了一個分類模型(ai text classifier)檢測器(detector)(https://platform.openai.com/ai-text-classifier),在英文文本的評估中,正確識別了 26% 的 AI 生成文本,錯誤地將 9% 的人類文本標(biāo)記為 AI 文本。

起初我對此結(jié)果存疑。直到我讓 Bing 以“春”、“夏”、”秋”、“冬”為話題分別寫四首詩,并交給 OpenAI 的檢測器來判斷。不幸的是,它給出的結(jié)果,分別是“文本非常不可能是 AI 寫的”,“不可能是 AI 寫的”,“不可能是 AI 寫的”,“不可能是 AI 寫的”——正確率為零。

OpenAI自己的 AI 識別工具,以及市面上另一家 originality.ai 做的檢測器本質(zhì)上都是“語言模型”——就跟 ChatGPT 一樣。

OpenAI 識別局限丨源自 OpenAI

Originality.ai (基于 Transformer )搭建了全新架構(gòu),在此之上訓(xùn)練一個預(yù)訓(xùn)練語言模型。然后用建立在數(shù)百萬個樣本上的訓(xùn)練集對模型進(jìn)行微調(diào)。輸入一旦超過模型既定的閾值,就界定該內(nèi)容是被 AI 生成的。

為了提升準(zhǔn)確性,這類工具在生成訓(xùn)練數(shù)據(jù)中,要盡可能生成多樣化的數(shù)據(jù)(用不同生成方式,和用多個生成模型),以便模型更好地知道 AI 生成的文本類型。

利用現(xiàn)有的人類創(chuàng)作的文本數(shù)據(jù)對模型進(jìn)行微調(diào),使 AI 生成的文本更加自然(也就是更像“人話”),以便模型能學(xué)到,即便 AI 生成的文本越來越有“迷惑性”,但跟人類之間那個微妙的邊界仍然存在——這聽起來更像 AI 假“識別”之名行模仿之事。

但至少目前,跨沒跨過那個“邊界”總有一些標(biāo)準(zhǔn)。GPTZero (也是一款 AI “殺手”,https://gptzero.me/)在辨別一段輸入是不是由 AI 生成的,它借助兩個文本屬性,困惑性(perplexity)、突發(fā)性(burstiness)。

“困惑性”是指一段文本的復(fù)雜性和隨機(jī)性。模型接受生成的文本數(shù)據(jù)集訓(xùn)練,所以機(jī)器下一個詞接什么,下一句話說什么,可預(yù)測性更高。然而人類遣詞造句的隨機(jī)性就高了,說出的話更加讓機(jī)器意想不到。

“突發(fā)性”則指句子之間的變化程度。人類寫作,有更多的句子結(jié)構(gòu)變化,長、短句,復(fù)雜、簡潔句交替使用。機(jī)器生成的句子往往更加統(tǒng)一。

但模型的漏洞很容易鉆。AI 生成的內(nèi)容與日俱增,對一份全然不同于,且從未在訓(xùn)練集中出現(xiàn)的內(nèi)容,AI 極有可能預(yù)測錯誤;短文本對于模型來說簡直是災(zāi)難,因?yàn)槲谋驹蕉蹋尸F(xiàn)的變化可能性越少,OpenAI 要求輸入的文本至少有 1000 個字符。

那么 AI “鑒”畫的成績有好點(diǎn)嗎?

很遺憾,也沒有。

一位開發(fā)者 Matthew Maybe 在開發(fā)者社區(qū)上傳了自己的 image detector。(https://huggingface.co/spaces/umm-maybe/AI-image-detector)

實(shí)際上,他就是訓(xùn)練了一個圖片二分類模型。訓(xùn)練數(shù)據(jù)全部來自 Reddit,真實(shí)圖片來自 r/art 等版塊,AI 圖片來自 r/midjourney 等版塊,并“手動”為這些圖片打了標(biāo)簽。

后來經(jīng)朋友提醒,還將真實(shí)圖片上傳日期限制在 2019 年之前,避免有 AI 生成圖片的混入。

使用評價褒貶不一,Reddit 用戶說,說不好是不是靠猜的。因?yàn)樗脩粲?xùn)練的數(shù)據(jù)樣本太少,只有幾千個。另外他“故意”不去解決,由計算機(jī)處理過(可能指 PS 等軟件),而非 AI 生圖所造成的判斷結(jié)果“假陽性”問題。

“與其做一個完美模型,我更想對藝術(shù)家負(fù)責(zé)?!币灾劣冢P驮谂袛嗍遣皇恰罢妗眻D上,給出結(jié)果也有保守“傾向”。

研究者們認(rèn)為,即便一張圖片肉眼看起來“完美”,由于生成過程會留下痕跡,讓它仍能被識別出來是AI畫的。這些生成痕跡,與攝像頭拍攝留下的“標(biāo)識”不同。而且每個生成算法留下各自獨(dú)特痕跡,以便溯源。

過往在基于 GANs(生成式對抗網(wǎng)絡(luò))的 deepfakes “換臉術(shù)”中,通過找生成痕跡的檢測方法被證明是有效的。

于是上述研究者們想,類似方法能否用于這段時間發(fā)展起來的 AI 生圖所基于的擴(kuò)散模型上。他們發(fā)現(xiàn),擴(kuò)散模型留下的痕跡,普遍不如 GANs 明顯。例如 Stable Diffusion 的痕跡雖弱,但尚可用來檢測,DALL-E 2 幾乎不可見。

生成痕跡在 DALL-E2 中幾乎不可見丨源自參考文獻(xiàn)[7]

基于模型之間的差距,以及對現(xiàn)有 detectors 做了效果評估之后,他們得出結(jié)論,現(xiàn)有 detectors 最大問題是“通用性”。

引入一個擴(kuò)散模型生成的圖片用以訓(xùn)練,可以幫助檢測出類似模型生成的圖片,但對其他的檢測效果就不好。一個模型是為 GANs 訓(xùn)練的,它很難檢測出基于擴(kuò)散模型的生成圖片。

以及當(dāng)圖片因?yàn)樵谏缃幻襟w上經(jīng)常被壓縮、裁剪,從而質(zhì)量有所下降,detectors 識別起來就有困難。

先是信不過AI,然后就是人類的相互猜忌

但今天的 AI 畫圖,不見得找不出一點(diǎn)錯。有的時候畫面缺少 3D 建模;在陰影和反射畫面中不對稱。肉眼挑錯的方法雖不是長久之計,但至少是目前最可行的辦法。

比如在特朗普被捕的這些照片中。打眼一看畫面主體好像沒問題,但仔細(xì)一看,畫面人物越多,“詭異”的事情越多。

比如“多腿”特朗普;

圖片來源 Twitter @Eliot Higgins

特朗普膚色不自然,面部呈現(xiàn)一種“蠟質(zhì)”的不真實(shí);以及找不到主人的手;

圖片來源Twitter @Eliot Higgins

警察的帽子和徽章都模糊處理,細(xì)看甚至不盡相同;

圖片來源Twitter @Eliot Higgins

當(dāng) AI 表現(xiàn)人物表情,往往以一種比較夸張的方式呈現(xiàn)。(有的時候就連微笑所帶來的皮膚褶皺都畫得非常明顯);

圖片來源Twitter @Eliot Higgins

以及 AI 似乎還沒學(xué)會“眼神追蹤”,一群追趕特朗普的人,他們看向的方向都不相同。

圖片來源Twitter @Eliot Higgins

而在普通人眼中認(rèn)為完美的 AI 藝術(shù),也在經(jīng)驗(yàn)老道的藝術(shù)家那里形成了一套“經(jīng)驗(yàn)主義”。

一名 3D 角色藝術(shù)家(Dan Eder)說,“如果想試圖辨認(rèn)一張 AI 生成圖像,應(yīng)該考慮作品的整體設(shè)計。假設(shè) AI 畫了一張“幻想戰(zhàn)士盔甲”,乍一看,很漂亮,細(xì)節(jié)也很豐富,但很多時候這背后沒有“邏輯”。邏輯是指,當(dāng)一位人類藝術(shù)家為角色創(chuàng)作盔甲,他得考慮到,這件盔甲的功能性,肢體位置,要能展開多少?!?/p>

另一位藝術(shù)家則說,AI 生成的圖像缺乏“意向性”(指人類的每一個覺知都是指向外部事物),AI 沒什么經(jīng)驗(yàn)基礎(chǔ),能理解人、樹、手……是什么。“所有這些都是剛被扔進(jìn)畫面里的,為了讓你的提示詞和數(shù)據(jù)點(diǎn)對應(yīng)起來。這是它能呈現(xiàn)的最接近的東西,但不知道為什么。”

即便藝術(shù)家們聲稱:AI 做圖缺少一種清晰的視覺敘事。但這種說法也被認(rèn)為是一種“事后諸葛亮”。

去年年底,一位數(shù)字藝術(shù)家 Ben Moran 發(fā)推,抱怨自己的作品被 r/Art 版塊審核員“禁了”,原因是違法了“no AI art”規(guī)則。這幅“戰(zhàn)區(qū)繆斯”(a muse in warzone)風(fēng)格的確類似很多 AI 生成藝術(shù)(在當(dāng)時)——文藝復(fù)興繪畫風(fēng)格,穿著戰(zhàn)士服的女性。

Moran 自證丨圖片來源Ben Moran

Moran 說,“不信,我交出 PSD 文件?!睂徍藛T卻說,“不必!如果你是一個‘正經(jīng)兒’藝術(shù)家,你得畫些其他風(fēng)格??谡f無憑,因?yàn)椴粫腥嗽傧嘈牛珹I 沒‘替’你畫畫。”

AI 學(xué)習(xí)網(wǎng)絡(luò)上大量畫作,從而形成自己“傾向性”的風(fēng)格,這本不是人類的錯。AI 生成內(nèi)容逼近肉眼可辨的真實(shí),連內(nèi)容創(chuàng)作“金字塔”尖的藝術(shù)家們也需要自證。諷刺的是像上述例子,為了自證,人類需要主動“避開” AI 所“擅長”的東西了。

參考文獻(xiàn)

[1]https://12ft.io/proxy?q=https%3A%2F%2Fwww.wired.com%2Fstory%2Fhow-to-tell-fake-ai-images-donald-trump-arrest%2F

[2]https://www.inquirer.com/politics/nation/ai-trump-arrest-photos-fake-20230322.html

[3]https://originality.ai/how-does-ai-content-detection-work/

[4]https://originality.ai/huggingface-ai-content-detection-review/

[5]https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

[6]https://www.npr.org/2023/01/09/1147549845/gptzero-ai-chatgpt-edward-tian-plagiarism

[7]https://arxiv.org/pdf/2211.00680.pdf

[8] https://medium.com/@matthewmaybe/can-an-ai-learn-to-identify-ai-art-545d9d6af226

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片