首頁(yè)>資訊 >
無(wú)痕 PS、讀得懂文字,OpenAI 的二代 DALL·E 驚艷亮相 2022-04-14 18:25:48  來(lái)源:36氪

能無(wú)痕 ps,能將文字轉(zhuǎn)為圖像,新一代的 DALL·E 2 有著什么樣的魔力?

去年 1 月,OpenAI 推出了一個(gè)名為 DALL·E 的 GPT-3 最強(qiáng)應(yīng)用。一年后,二代的 DALL·E 2 也驚艷亮相。DALL·E 2 可以將文字轉(zhuǎn)換生成更真實(shí)、更準(zhǔn)確的圖像,相比上一代產(chǎn)品,其分辨率提高了 4 倍,最為關(guān)鍵的是 DALL·E-2 還進(jìn)化出了一項(xiàng)新技能——可以根據(jù)文字描述將圖像自動(dòng) PS,而這種 PS 修改目前還很難被察覺(jué),足夠“以假亂真”。

原圖

PS 后

比如上圖中的「狗狗」就是由 DALL·E 2 后加上去的,兩幅圖對(duì)比下,幾乎看不出什么破綻。

可以說(shuō) DALL·E 2 帶給業(yè)界的震撼在于這是一款有著獨(dú)立創(chuàng)造力的跨模態(tài)生成模型。之前不管是可以一鍵切換為卡通風(fēng)格的 CycleGAN,還是以自動(dòng)修復(fù)圖像的 Partialconv,其中運(yùn)用的 AI 技術(shù)只能在圖像或者文字的單一模式下進(jìn)行生成和模仿,而時(shí)下將文字轉(zhuǎn)換成圖像、甚至根據(jù)文字對(duì)于圖像進(jìn)行修改,這種“腦補(bǔ)”的能力也是一次創(chuàng)新性突破。

從DALL·E-2 展示出的效果來(lái)看,其聯(lián)想能力已經(jīng)接近人類六歲的兒童,其藝術(shù)加工尤其是 PS 能力也已經(jīng)達(dá)到了人類設(shè)計(jì)師的巔峰水平,按照OpenAI以往的調(diào)性,他們往往是三代產(chǎn)品最強(qiáng),在未來(lái)繼續(xù)擴(kuò)大參數(shù)規(guī)模的情況下,DALL·E 2還預(yù)示著DALL·E 3 將會(huì)有無(wú)限可能,這也不禁讓我們想進(jìn)一步了解人工智能的邊界到底在哪。

DALL·E 2 的前世今生

DALL-E 是藝術(shù)家“Dalí”和機(jī)器人“WALL-E”的結(jié)合詞。雖然在 DALL·E 2 的論文中,OpenAI 的科學(xué)家們并沒(méi)有給出這個(gè)模型的具體規(guī)模與訓(xùn)練所需要的算力,不過(guò)考慮到第一代 DALL·E 就已經(jīng)是基于 GPT-3 這種超大規(guī)模模型的項(xiàng)目了,那么我們有理由相信 DALL·E 2 的參數(shù)模型應(yīng)該是 3000 億起步。

截至目前,OpenAI 團(tuán)隊(duì)也尚未在公共 API 列表中提供DALL·E 2 的相關(guān)功能或者預(yù)覽。據(jù)悉,OpenAI 的人員可能擔(dān)心 DALL·E 2 的超強(qiáng)功能被用到一些如換臉、圖像偽造等會(huì)對(duì)社會(huì)造成負(fù)面影響的方面,因此也正在設(shè)計(jì)限制 DALL·E 被用于負(fù)面圖像生成的方案,預(yù)計(jì)完成之后就會(huì)對(duì)外公開(kāi)了。

與此同時(shí),從另一個(gè)角度來(lái)看,這也推進(jìn)了 AI 與云計(jì)算的結(jié)合,因?yàn)橹挥袑?AI 云化才能讓普通玩家用得到 DALL·E 2,否則中小型公司憑借自己的力量,很難訓(xùn)練出這種超大規(guī)模的模型。

DALL·E 2繼承了第一代產(chǎn)品將文本轉(zhuǎn)化為圖像的能力,并且提供了更高的分辨率和更低的延遲,還可以根據(jù)用戶的描述對(duì)于現(xiàn)有的圖像進(jìn)行 PS,用戶可以從現(xiàn)有的圖片開(kāi)始,選擇一個(gè)區(qū)域,并告訴模型編輯它。例如,你可以在客廳的墻上畫(huà)一幅畫(huà),然后用另一幅畫(huà)代替它,或者在咖啡桌上放一瓶花。該模型可以填充(或刪除)對(duì)象,同時(shí)在 PS 過(guò)程中,DALL·E 2 還會(huì)考慮房間中陰影的方向等細(xì)節(jié)。

正如上文所說(shuō)第一代的 DALL-E 是基于 GPT-3 模型的,它可以將圖像壓縮成文字,但圖像與文字的匹配往往會(huì)限制圖像的真實(shí)度。DALL·E 2 則引入了 CLIP/unCLIP 的機(jī)制,CLIP 類似于編碼器,它的工作原理是像人類一樣,查看圖像并總結(jié)圖像的內(nèi)容,而 unCLIP 則是 CLIP 的反向操作,是從文字描述生成圖像的過(guò)程。CLIP/unCLIP 的機(jī)制在一定程度上解決了 CLIP 一個(gè)非常有趣的弱點(diǎn):人們可以通過(guò)給一個(gè)物體貼上一個(gè)標(biāo)簽(比如 iPod),這種方式往往會(huì)達(dá)到欺騙模型的目的。DALL·E 2 對(duì)于這種貼著標(biāo)簽的蘋(píng)果有著比較好的識(shí)別能力,比如下列圖片基本都能被 DALL·E 2 正確處理。

DALL·E 2 的基本原理與背后趨勢(shì)

正如前文所說(shuō),DALL·E 2 是基于 CLIP/unCLIP 機(jī)制的,首先為了獲得完整的圖像生成模型,將 CLIP 圖像嵌入解碼器與一個(gè)先驗(yàn)?zāi)P?,它從給定的文本標(biāo)題生成可能的 CLIP 圖像嵌入。而將完整文本條件圖像生成堆棧則稱為 unCLIP,因?yàn)樗ㄟ^(guò)顛倒 CLIP 圖像編碼器生成圖像。訓(xùn)練數(shù)據(jù)集由成對(duì)(x, y)的圖像 x 和它們對(duì)應(yīng)的標(biāo)題 y 組成。設(shè) zi 和 zt 分別為其 CLIP 圖像和文本嵌入,其基本的架構(gòu)如下:

筆者認(rèn)為 DALL·E 2 快速發(fā)展的背后,其實(shí)是人工智能由感知智能到認(rèn)知智能的全面升級(jí),而這其中的創(chuàng)造性是 AI 今后發(fā)展的最大助力,比如金融行業(yè)的呼叫中心需要分析客戶的語(yǔ)氣,以快速處理投訴類案例;出行類 APP 遇到客戶說(shuō)出某些關(guān)鍵詞時(shí),則需要立刻與 110 聯(lián)動(dòng)報(bào)警。這些應(yīng)用場(chǎng)景其實(shí)都需要 AI 模型放棄原先死板僵硬的計(jì)算,而發(fā)展出某種活性。而一旦 AI 擁有創(chuàng)意,那么就可以和二次元特性進(jìn)行結(jié)合,尤其是 90、00 后的年輕人們,在對(duì)話當(dāng)中經(jīng)常使用表情圖、動(dòng)態(tài)圖等方式來(lái)表達(dá)情感,而將這些非語(yǔ)言信息的語(yǔ)義提取并翻譯出來(lái),就需要一定的創(chuàng)意了。

而再進(jìn)一步,AI 未來(lái)很可能會(huì)達(dá)到比你自己更懂你的程度。比如前段時(shí)間筆者經(jīng)常熬夜加班,結(jié)果打開(kāi)淘寶會(huì)發(fā)現(xiàn)總給我推薦防脫洗發(fā)水,當(dāng)然目前已經(jīng)推薦枸杞了。

不過(guò)這其實(shí)也說(shuō)明認(rèn)知智能的終極發(fā)展就是讓用戶在使用過(guò)程中對(duì)于“人工智能”不斷淡化,甚至無(wú)感化?,F(xiàn)在用戶使用人工智能時(shí)還會(huì)明顯感受到它的存在,比如你打開(kāi)電視還需要說(shuō)“我要看XXX的電視劇”,還要對(duì)手機(jī)說(shuō)“給XXX打電話”而真正實(shí)現(xiàn)認(rèn)知智能之后,將會(huì)讓你覺(jué)得你的這些交互行為變?yōu)槎嘤?,比如你回到家,人工智能系統(tǒng)會(huì)根據(jù)你的步態(tài),推薦一個(gè)適合你當(dāng)下身體狀況的食譜,等你吃完飯下樓去超市的時(shí)候,你的手機(jī)會(huì)建議補(bǔ)充一些牛奶,因?yàn)槟銊倓傄呀?jīng)把家里最一袋牛奶喝掉了。相信讀到這里讀者也就會(huì)明白,化有形于無(wú)形,就是用戶交互的最終奧義。

雖然短期來(lái)看,創(chuàng)造性 AI 還略顯遙不可及,但是 DALL·E 2 的出現(xiàn),讓我們看到了希望,讓我們做好準(zhǔn)備迎接新一代認(rèn)知 AI 產(chǎn)品的到來(lái)。

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片