日韩一区二区在线看精品,亚洲熟女少妇一区二区,国产综合久久精品东京热

首頁(yè)>資訊 >

每日看點(diǎn)!從第一性原理出發(fā)，分析AI會(huì)如何改變視覺(jué)內(nèi)容的創(chuàng)作和分發(fā) 2022-10-04 20:38:51　　來(lái)源：36氪

作者｜圖形起源CEO史海天

編輯｜石亞瓊

今年AI生成圖像能力進(jìn)步得非常快?？斓绞裁闯潭饶?？三四月份的時(shí)候，AI還很難畫出一個(gè)正常的人臉，到九月份的時(shí)候，AI已經(jīng)可以把人臉畫的惟妙惟肖了。

(資料圖片)

要知道，我們對(duì)人臉的觀察是非常敏銳的，很容易能察覺(jué)到哪怕很細(xì)微的錯(cuò)誤。

而下面這幾張圖都是用戶使用今天的AI在30s的時(shí)間里畫出來(lái)的圖：

用戶在Draft.art上創(chuàng)作的人像作品

可見(jiàn)，今天的AI對(duì)“人應(yīng)該長(zhǎng)什么樣”的理解已經(jīng)非常準(zhǔn)確了。

AI和人不同的是，一旦它畫出了一張漂亮的人臉，它就可以持續(xù)地畫。而且隨著從更多的數(shù)據(jù)中學(xué)習(xí)，水平還能不斷提高。

因此也難怪周圍美術(shù)行業(yè)的朋友感慨要失業(yè)了。

那么，AI“畫”一張圖的原理是什么？它的學(xué)習(xí)方式是什么？未來(lái)AI作畫會(huì)以多快的速度進(jìn)步？AI作畫會(huì)如何影響創(chuàng)作者們的利益？

我們可以從第一性原理出發(fā)，來(lái)逐個(gè)分析這幾個(gè)問(wèn)題：

AI作圖的原理

AI創(chuàng)作能力的根源來(lái)自神經(jīng)網(wǎng)絡(luò)這項(xiàng)技術(shù)。

我們爭(zhēng)取用最簡(jiǎn)單的方法給沒(méi)有知識(shí)背景的同學(xué)講清楚什么是神經(jīng)網(wǎng)絡(luò)，為什么神經(jīng)網(wǎng)絡(luò)可以在30s的時(shí)間里把一張精美的圖像畫出來(lái)。

人的神經(jīng)元長(zhǎng)這樣：

人的神經(jīng)元

科學(xué)家受人類神經(jīng)元啟發(fā)，設(shè)計(jì)出的人工神經(jīng)網(wǎng)絡(luò)長(zhǎng)下面這樣：

人工神經(jīng)網(wǎng)絡(luò)

一般講神經(jīng)網(wǎng)絡(luò)就是指這種人工的網(wǎng)絡(luò)。

其實(shí)實(shí)際的神經(jīng)網(wǎng)絡(luò)都是用數(shù)學(xué)公式表示的，沒(méi)有實(shí)體結(jié)構(gòu)，圖里面的這些圈和連線是對(duì)神經(jīng)網(wǎng)絡(luò)的一種可視化呈現(xiàn)。

這些圓圈起什么作用呢，我們想象每個(gè)圓圈里都有一個(gè)計(jì)數(shù)器，當(dāng)這個(gè)計(jì)數(shù)器接收到左邊連線傳來(lái)的數(shù)時(shí)，會(huì)進(jìn)行一次簡(jiǎn)單的計(jì)算，然后把計(jì)算結(jié)果（也是一個(gè)數(shù)）輸出，通過(guò)連線傳給右邊的圓圈，繼續(xù)重復(fù)類似的過(guò)程，直到數(shù)字從最右側(cè)的圓圈輸出。

我們腦子里的不同神經(jīng)元之間連接的強(qiáng)度是不一樣的，有些粗一點(diǎn)，有些細(xì)一點(diǎn)。正是這些連接強(qiáng)度，讓我們產(chǎn)生了記憶和知識(shí)。

對(duì)于計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，也有相似的規(guī)律：圓圈和圓圈之間的連線的“權(quán)重”不同。權(quán)重是連線的一個(gè)屬性，當(dāng)數(shù)字在一條連線上傳遞的時(shí)候，要乘上這個(gè)連線代表的“權(quán)重”。因此，當(dāng)數(shù)字經(jīng)過(guò)這些連線以后，會(huì)因?yàn)槌诉^(guò)了不同的權(quán)重，導(dǎo)致輸出結(jié)果的改變。

因此，對(duì)于整張神經(jīng)網(wǎng)絡(luò)而言，其中的各個(gè)圓圈之間的連接權(quán)重，決定了神經(jīng)網(wǎng)絡(luò)的輸出！

神經(jīng)網(wǎng)絡(luò)連接

神經(jīng)網(wǎng)絡(luò)運(yùn)行的過(guò)程是：

我們給神經(jīng)網(wǎng)絡(luò)左邊輸入一系列數(shù)字，神經(jīng)網(wǎng)絡(luò)會(huì)按照?qǐng)A圈里的計(jì)算規(guī)則，和連線上的權(quán)重，把數(shù)字從左到右計(jì)算和傳遞，最終，從最右側(cè)的圓圈輸出一系列數(shù)字。輸入一組數(shù)、輸出另一組數(shù)，這就是神經(jīng)網(wǎng)絡(luò)的運(yùn)行過(guò)程。

為什么這樣一個(gè)網(wǎng)絡(luò)可以“生成圖片”呢？

我們看看圖片是什么：

計(jì)算機(jī)里的圖片是由像素組成的，每個(gè)像素代表一個(gè)顏色，當(dāng)像素排列的足夠多、足夠密集的時(shí)候，一張有內(nèi)容有顏色的圖片就出現(xiàn)了。

我們知道，眼睛看到的顏色是由光的三原色組成的，相似地，計(jì)算機(jī)里的顏色也是由3種基本色組合成的。

每個(gè)像素的顏色都可以用三種基本色（紅、綠、藍(lán)）疊加出來(lái)。

像素顏色

那么，如果用數(shù)字來(lái)記錄每個(gè)像素中紅、綠、藍(lán)的比例，我們就可以把一張圖片表達(dá)成一張由數(shù)字組成的表格了：

圖片的像素表格

當(dāng)我們把這堆數(shù)字展開(kāi)，按特定順序排成一排的時(shí)候，圖片就變成了一串?dāng)?shù)字。

反之，我們把一串符合長(zhǎng)度要求的數(shù)字堆在一起，再?gòu)睦锩姘凑占t、綠、藍(lán)的比例還原出色彩的時(shí)候，我們就把一串?dāng)?shù)變成了一張“圖片”。

而文字又是什么呢？

假設(shè)計(jì)算機(jī)共存儲(chǔ)了10w個(gè)漢字，我們把十萬(wàn)個(gè)數(shù)字“0”從左到右排列起來(lái)，讓每個(gè)漢字對(duì)應(yīng)一個(gè)位置并記錄其對(duì)應(yīng)關(guān)系。

當(dāng)我們想表達(dá)某個(gè)字的時(shí)候，我們找到這串?dāng)?shù)里對(duì)應(yīng)這個(gè)字的位置，然后把這個(gè)位置的0改為1，其余位置仍然是0。這樣，我們就可以把一個(gè)漢字轉(zhuǎn)化成這樣 0,0,0, ..., 1, ...,0,0 的一串?dāng)?shù)。

當(dāng)我們用多串這樣的數(shù)連在一起的時(shí)候，我們就可以表達(dá)一個(gè)包含多個(gè)漢字的句子了。

當(dāng)句子可以被轉(zhuǎn)化成一串?dāng)?shù)以后，就可以被輸入“神經(jīng)網(wǎng)絡(luò)”了。

比如我們把 1, 5, 4, 9, 3 這串?dāng)?shù)輸入神經(jīng)網(wǎng)絡(luò)，意思就是，讓計(jì)算機(jī)把 1、5、4、9、3 分別加到第一排的這些圓圈上，并按照規(guī)則繼續(xù)往后傳遞。

數(shù)字輸入神經(jīng)網(wǎng)絡(luò)

數(shù)字們?cè)谏窠?jīng)網(wǎng)絡(luò)的圓圈和連線之間不斷傳遞，最后通過(guò)最右側(cè)的圓圈輸出：

神經(jīng)網(wǎng)絡(luò)運(yùn)算

輸出的結(jié)果也是一串?dāng)?shù)字。

此時(shí)，我們按照數(shù)字轉(zhuǎn)圖片的規(guī)則把輸出的這串?dāng)?shù)轉(zhuǎn)換成一張圖片，那么從原理上我們就實(shí)現(xiàn)了“通過(guò)句子生成圖片”的目標(biāo)。

只不過(guò)，當(dāng)我們沒(méi)有對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的時(shí)候，其輸出的數(shù)字是很隨機(jī)的，因此轉(zhuǎn)換出來(lái)的圖片內(nèi)容也是完全混亂的。

為了讓神經(jīng)網(wǎng)絡(luò)輸出“正確”的圖片，我們需要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行“訓(xùn)練”。

按照前面的知識(shí)，我們知道影響神經(jīng)網(wǎng)絡(luò)輸出的是神經(jīng)網(wǎng)絡(luò)的權(quán)重。

那么如何改變神經(jīng)網(wǎng)絡(luò)里的連接權(quán)重，來(lái)讓神經(jīng)網(wǎng)絡(luò)輸出我們希望輸出的內(nèi)容呢？

比如我們想讓神經(jīng)網(wǎng)絡(luò)生成一只貓的圖片。

第一步，讓沒(méi)有訓(xùn)練過(guò)的（也就是隨機(jī)權(quán)重的）神經(jīng)網(wǎng)絡(luò)接收到“貓”這個(gè)詞，直接進(jìn)行計(jì)算。按照我們上面的知識(shí)，代表“貓”的一串?dāng)?shù)經(jīng)過(guò)從左到右的傳遞后，出來(lái)的這串?dāng)?shù)可以轉(zhuǎn)化成一張圖片。

但此時(shí)因?yàn)闆](méi)有訓(xùn)練，得到的這個(gè)圖片是一堆亂碼，和貓沒(méi)有關(guān)系。

神經(jīng)網(wǎng)絡(luò)生成貓圖

我們粗略認(rèn)為，如果神經(jīng)網(wǎng)絡(luò)輸出的圖像和貓的圖像比較接近的話，說(shuō)明神經(jīng)網(wǎng)絡(luò)“更理解”貓長(zhǎng)什么樣，說(shuō)明神經(jīng)網(wǎng)絡(luò)更會(huì)畫“貓”；如果和貓的圖像差距很大的話，證明神經(jīng)網(wǎng)絡(luò)不太會(huì)畫“貓”。

有知識(shí)背景的同學(xué)知道這里面存在很多隱含假設(shè)，但是通俗來(lái)講，訓(xùn)練神經(jīng)網(wǎng)絡(luò)的基本思路就是希望就是通過(guò)改變神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得神經(jīng)網(wǎng)絡(luò)輸出的圖片和正確圖片之間的差距變小。

如何量化兩張圖片之間的差距呢？

方法就是用代表兩張圖片的那兩串?dāng)?shù)直接做減法，相減后結(jié)果越接近0，說(shuō)明兩張圖片“越像”。

訓(xùn)練后神經(jīng)網(wǎng)絡(luò)生成貓圖過(guò)程

那么我們?nèi)绾巫屔窠?jīng)網(wǎng)絡(luò)的權(quán)重朝著這種“結(jié)果差距變小”的方向改變呢？

這里用到了一個(gè)“反向傳播”的方法。“反向傳播”就是我們可以讓輸出結(jié)果之間的“差距”，去返回去改變神經(jīng)網(wǎng)絡(luò)的權(quán)重，讓代表結(jié)果的差距的信號(hào)在神經(jīng)網(wǎng)絡(luò)中“反向”傳播。感受一下這個(gè)過(guò)程：

訓(xùn)練過(guò)程

怎么用結(jié)果的差距改變權(quán)重呢？

最簡(jiǎn)單的理解是，你讓一個(gè)權(quán)重增大一點(diǎn)，試試結(jié)果如何，如果結(jié)果的“差距”變小了，說(shuō)明權(quán)重增大是正確的，那么你就真的增加這個(gè)權(quán)重；如果“差距”反而變大了，那就說(shuō)明權(quán)重增大是錯(cuò)誤的，你就減小這個(gè)權(quán)重。以此類推，在固定住其他權(quán)重的情況下，把每個(gè)權(quán)重都按這種方法優(yōu)化一下。經(jīng)過(guò)漫長(zhǎng)的很多次循環(huán)之后，理想情況下，整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重分布就會(huì)讓輸出的結(jié)果越來(lái)越接近“正確”結(jié)果了！

訓(xùn)練結(jié)果反向訓(xùn)練

比如當(dāng)這樣優(yōu)化500輪之后，神經(jīng)網(wǎng)絡(luò)輸出的數(shù)字轉(zhuǎn)化成的圖片已經(jīng)很接近“正確”的貓的圖片了，那我們就可以認(rèn)為，這個(gè)神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)會(huì)畫“貓”啦！

那么，理解了最基本的神經(jīng)網(wǎng)絡(luò)原理以后。我們看看今天最先進(jìn)的AI生成技術(shù)是什么樣的。

它其實(shí)就是幾個(gè)不同神經(jīng)網(wǎng)絡(luò)的組合！大概長(zhǎng)這個(gè)樣子：

（右圖是簡(jiǎn)化版本）

里面有三個(gè)神經(jīng)網(wǎng)絡(luò)在起作用。

【句子轉(zhuǎn)換網(wǎng)絡(luò)】的作用就是把輸入的提示語(yǔ)轉(zhuǎn)化成一個(gè)后面網(wǎng)絡(luò)更好理解的數(shù)串。

【生成網(wǎng)絡(luò)】的作用是接收到代表提示語(yǔ)的數(shù)串和處理后的參考圖后，輸出一張圖像。

【放大網(wǎng)絡(luò)】的作用是把生成網(wǎng)絡(luò)輸出的圖像進(jìn)一步放大，提高分辨率和清晰度。

根據(jù)上面的原理，其實(shí)一個(gè)網(wǎng)絡(luò)經(jīng)過(guò)大量訓(xùn)練，理論上就可以完成詞語(yǔ)轉(zhuǎn)換和生成圖片的全部任務(wù)。為什么要設(shè)計(jì)多個(gè)網(wǎng)絡(luò)分工的結(jié)構(gòu)呢，是因?yàn)榻?jīng)過(guò)大量科學(xué)家的探索，發(fā)現(xiàn)這樣的結(jié)構(gòu)，在訓(xùn)練成本上和出圖效果上都比較理想。

未來(lái)可能會(huì)出現(xiàn)更復(fù)雜的生成式AI模型設(shè)計(jì)，但神經(jīng)網(wǎng)絡(luò)的這種基本原理不會(huì)有太大的變化。

AI創(chuàng)作能力會(huì)如何變化？

明白了AI作圖的原理后，我們想知道未來(lái)AI創(chuàng)作會(huì)如何變化呢？

我們來(lái)做一個(gè)小實(shí)驗(yàn)：

打開(kāi)Draft.art，輸入提示語(yǔ)：“精靈寶可夢(mèng)照片”

Draft官網(wǎng)

等待30s，得到的結(jié)果如下：

訓(xùn)練結(jié)果

可以發(fā)現(xiàn)，AI畫出來(lái)的寶可夢(mèng)不夠理想。

為什么AI有時(shí)候能畫出讓人驚喜的完美作品，比如前面的人臉；有時(shí)候又不夠理想？

這和AI學(xué)習(xí)到（用于訓(xùn)練）的數(shù)據(jù)有關(guān)。

我們找到今天知名的AI生成模型Stable Diffusion所用的真實(shí)訓(xùn)練數(shù)據(jù)看一看：

Stable Diffusion訓(xùn)練數(shù)據(jù)

可以發(fā)現(xiàn)，Stable Diffusion主要學(xué)習(xí)的是真實(shí)照片，還有一少部分美術(shù)作品。

使用什么樣的數(shù)據(jù)訓(xùn)練AI，AI就會(huì)掌握這種數(shù)據(jù)代表的知識(shí)。因此如果數(shù)據(jù)里面缺少比如“寶可夢(mèng)”等元素的時(shí)候，輸入“寶可夢(mèng)”等關(guān)鍵詞，AI當(dāng)然就很難生成理想的結(jié)果。

我們進(jìn)一步來(lái)驗(yàn)證以上觀點(diǎn)：

我們?cè)囍鴮?duì)模型進(jìn)行單獨(dú)地訓(xùn)練，增加一些我們希望學(xué)習(xí)的數(shù)據(jù)。

搜集一組寶可夢(mèng)的圖片，我們讓AI針對(duì)這26張圖片進(jìn)行新的一輪訓(xùn)練，

AI針對(duì)模型訓(xùn)練

訓(xùn)練約半個(gè)小時(shí)后，再次運(yùn)行AI模型，輸入：“精靈寶可夢(mèng)照片”

得到了下面一組截然不同的結(jié)果：

AI針對(duì)模型訓(xùn)練后生成結(jié)果

能看出來(lái)，訓(xùn)練后的AI明顯學(xué)習(xí)到了寶可夢(mèng)的線條、配色、動(dòng)物的特征和調(diào)皮的風(fēng)格。甚至能有機(jī)地把不同小精靈的特征結(jié)合在一起了。

而實(shí)現(xiàn)以上過(guò)程，我們只用了26張圖和20分鐘的訓(xùn)練時(shí)間。

可見(jiàn)，AI目前最大的問(wèn)題不是“不夠聰明”，而是“書讀得太少”。

如果我們使用大規(guī)模的、精準(zhǔn)整理、完善標(biāo)注過(guò)的圖片數(shù)據(jù)，供AI學(xué)習(xí)，在特定領(lǐng)域下，AI生成的能力將會(huì)大幅度提高。

AI創(chuàng)作能力在未來(lái)短時(shí)間內(nèi)的進(jìn)步速度，也將取決于各行各業(yè)收集和訓(xùn)練行業(yè)優(yōu)質(zhì)數(shù)據(jù)的工作。

AI會(huì)引發(fā)創(chuàng)作行為的范式轉(zhuǎn)移

首先說(shuō)結(jié)論：

從2022年開(kāi)始，AI生成會(huì)對(duì)視覺(jué)內(nèi)容的創(chuàng)作和分發(fā)帶來(lái)一次巨大的范式轉(zhuǎn)移。

范式轉(zhuǎn)移是托馬斯·庫(kù)恩在《科學(xué)革命的結(jié)構(gòu)》中提出的一個(gè)概念。

蒸汽機(jī)、電話、火車、計(jì)算機(jī)、互聯(lián)網(wǎng)行業(yè)的出現(xiàn)都是范式轉(zhuǎn)移的典型代表。

想象一下，在這些產(chǎn)業(yè)出現(xiàn)之前，人們已經(jīng)有了一整套成熟的辦法去解決生產(chǎn)、通信、交通等問(wèn)題。

但當(dāng)這些新技術(shù)出現(xiàn)之后，此前的解決方案和相關(guān)產(chǎn)業(yè)在短時(shí)間內(nèi)就被徹底顛覆了；同時(shí)，圍繞新技術(shù)路線產(chǎn)生的產(chǎn)品快速接管了人們的需求。比如互聯(lián)網(wǎng)上出現(xiàn)的各種網(wǎng)站和智能手機(jī)上出現(xiàn)的各類app，分別替代了互聯(lián)網(wǎng)出現(xiàn)之前的各類線下服務(wù)——這就是范式轉(zhuǎn)移的力量。

為什么AI會(huì)帶來(lái)一次視覺(jué)創(chuàng)作的范式轉(zhuǎn)移呢？

我們從第一性原理出發(fā)，看一看今天的視覺(jué)創(chuàng)作流程長(zhǎng)什么樣：

以概念設(shè)計(jì)師為例，今天一位概念設(shè)計(jì)師的工作流程是：

接到需求——搜集參考——構(gòu)思——出圖——和甲方溝通修改

設(shè)計(jì)師理解需求后，一般會(huì)先找一找相關(guān)的作品，獲取思路。

概念設(shè)計(jì)師會(huì)在哪里找作品：

概念設(shè)計(jì)師常用官網(wǎng)

搜索引擎、Pinterest這樣的推薦引擎、Artstation這樣的原創(chuàng)作品網(wǎng)站。

設(shè)計(jì)師在搜索引擎上找到的圖片來(lái)自更上游的原創(chuàng)作品網(wǎng)站，比如artstation、behance等。

比如我們?cè)赑interest和A站上搜索“機(jī)器人”，能看到大量機(jī)器人的設(shè)計(jì)方案。

Pinterest和A站

設(shè)計(jì)師從這些作品中獲得什么？

獲得創(chuàng)意和想法。

比如，機(jī)器人的體型怎么設(shè)計(jì)好看；有哪些好看的配色方案；應(yīng)該選取圓潤(rùn)還是銳利的線條特征；畫面中應(yīng)該有哪些機(jī)械元素；機(jī)器人的表情應(yīng)該長(zhǎng)什么樣；有哪些材質(zhì)；什么樣的光影更有表現(xiàn)力...

設(shè)計(jì)師人腦思考

這些創(chuàng)意由知名的設(shè)計(jì)師或藝術(shù)家，根據(jù)自己的生活觀察、天賦和行業(yè)經(jīng)驗(yàn)創(chuàng)作出來(lái)，以圖片的形式發(fā)布在各個(gè)網(wǎng)站上，受到版權(quán)的保護(hù)，獲取收益。

而設(shè)計(jì)師為了獲取創(chuàng)意，通過(guò)搜索引擎、推薦系統(tǒng)、付費(fèi)購(gòu)買等辦法來(lái)搜集這些作品。

這些作品給設(shè)計(jì)師提供的創(chuàng)意，是設(shè)計(jì)師用來(lái)構(gòu)思方案的重要“原材料”。設(shè)計(jì)師用這些原材料結(jié)合自己的想法，圍繞設(shè)計(jì)需求，反復(fù)組合、探討、篩選，最終產(chǎn)生了新的方案。

AI創(chuàng)作帶來(lái)了什么改變呢？

AI因?yàn)槟軌蛑苯訌幕ヂ?lián)網(wǎng)上學(xué)習(xí)幾乎所有的圖片作品，并具有強(qiáng)大的抽象能力，因此AI幾乎可以把設(shè)計(jì)師需要的配色、構(gòu)圖、筆觸、線條、光影等細(xì)節(jié)都學(xué)習(xí)到。

AI擁有了這些視覺(jué)知識(shí)后，當(dāng)使用者給出一段提示語(yǔ)時(shí)，就能夠立刻在自己高達(dá)數(shù)百維的高維知識(shí)空間中尋找匹配的特征，快速進(jìn)行排列組合，然后畫出一張組合了多個(gè)藝術(shù)家風(fēng)格和創(chuàng)意的作品。

AI模型創(chuàng)作

整個(gè)過(guò)程都是在1分鐘以內(nèi)完成的。

比如之前舉的機(jī)器人和仙人掌怪物的例子：

AI生成圖片效果

設(shè)計(jì)師的目標(biāo)是要設(shè)計(jì)一款致敬某個(gè)游戲畫風(fēng)的、方塊形態(tài)的仙人掌怪物角色。

雖然荒野亂斗、方塊形態(tài)、仙人掌、怪物，都不是生僻的概念，但是想在互聯(lián)網(wǎng)上直接找到一張同時(shí)結(jié)合了以上特征的方案，很難，很少。

而AI生成就不一樣了，這種多個(gè)特征的有機(jī)組合對(duì)AI來(lái)說(shuō)非常容易

只要AI通過(guò)數(shù)據(jù)分別學(xué)習(xí)到了什么是荒野亂斗、什么是方塊、什么是仙人掌、什么是怪物角色，AI就可以毫不費(fèi)力地把這些概念完美地融合在一起，真的像一個(gè)設(shè)計(jì)師一樣想出來(lái)一個(gè)靠譜的方案給你。

這是今天的互聯(lián)網(wǎng)圖片網(wǎng)站不具有的能力。

這顯然是非常鮮明的“新范式”特征——過(guò)去的解決方案望塵莫及。

“新范式”特征

這種范式帶來(lái)的核心變化是：

建立了一個(gè)可以不通過(guò)圖像傳遞創(chuàng)意的通路。

新范式核心變化

當(dāng)AI從源頭學(xué)習(xí)到藝術(shù)家的創(chuàng)意和情緒，并在終端按照具體需求畫出來(lái)的時(shí)候，中間大部分的圖片文件存儲(chǔ)、傳輸、分發(fā)和交易環(huán)節(jié)，就失去了其價(jià)值。

所以我想AI創(chuàng)作最大的價(jià)值并不是畫圖本身，而是它帶來(lái)了一種全新的創(chuàng)意流通方式，在“創(chuàng)意—圖片—網(wǎng)站—圖片—?jiǎng)?chuàng)意”之間建立了一個(gè)更短的：

“創(chuàng)意—AI—?jiǎng)?chuàng)意”通路。

對(duì)創(chuàng)作者的影響

那么，這種新范式下，上游的創(chuàng)作者會(huì)受什么影響呢？

自AI創(chuàng)作逐漸走入公眾視野后，大量反對(duì)的聲音來(lái)自上游的藝術(shù)家。原因是AI對(duì)原有的圖片版權(quán)造成了巨大的破壞。

我們看下面這張圖：

500px上攝影作品

這是一張500px上的攝影作品。

500px是一個(gè)版權(quán)保護(hù)很好的攝影網(wǎng)站，當(dāng)你在這個(gè)圖片上點(diǎn)擊右鍵想保存的時(shí)候，他會(huì)提醒你這是某位藝術(shù)家的原創(chuàng)作品。

而計(jì)算機(jī)會(huì)怎么獲取這張圖片呢？

進(jìn)入開(kāi)發(fā)者模式，逐個(gè)檢查網(wǎng)頁(yè)元素，直到找到這張圖片所在的元素：

開(kāi)發(fā)者模式對(duì)該照片的分析

點(diǎn)擊其來(lái)源鏈接：

https://drscdn.500px.org/photo/1054244408/q%3D80_m%3D2000/v2?sig=a7273d918c7482ba81dae3be9c139849e29ad29e442e8e8480eb7e17d8687b50

我們就直接得到了這張圖片的高清原始文件。

原始圖片

因此，計(jì)算機(jī)用腳本拿到一張圖片比人容易很多。哪怕圖片網(wǎng)站做了層層保護(hù)，讓我們無(wú)法用腳本獲取原圖，從原理上說(shuō)，只要是人能看到的圖片，從技術(shù)上都變成被AI學(xué)習(xí)的數(shù)據(jù)。

因?yàn)榭梢越貓D。

對(duì)于AI來(lái)說(shuō)，裁掉一些邊角、有水印，都不是問(wèn)題，你把截圖交給AI，它仍然能學(xué)習(xí)到圖片特征。

所以AI從原理上確實(shí)會(huì)對(duì)今天互聯(lián)網(wǎng)圖片版權(quán)產(chǎn)生影響。

如果AI會(huì)影響版權(quán)生意，那么過(guò)去以版權(quán)作為收入的藝術(shù)家們?cè)撛趺崔k呢？

其實(shí)藝術(shù)家反而可以利用這個(gè)變量為自己獲得新的收益。

藝術(shù)家的貢獻(xiàn)在于能夠產(chǎn)生優(yōu)質(zhì)的“創(chuàng)意”，而下游創(chuàng)作者需要的正是“創(chuàng)意”本身。

創(chuàng)意是比圖片更本質(zhì)的價(jià)值載體，是這些圖片背后的價(jià)值。

因此如果能夠把藝術(shù)家在“創(chuàng)意”交易中的貢獻(xiàn)進(jìn)行定價(jià)，那么理論上我們就可以為藝術(shù)家?guī)?lái)一種適應(yīng)AI創(chuàng)作的新型收益模式。

我們能不能量化藝術(shù)家在AI創(chuàng)作中的貢獻(xiàn)呢？

可以。

研究生成式AI的算法會(huì)發(fā)現(xiàn)，在生成圖像的過(guò)程中引入一種“注意力機(jī)制”，就可以準(zhǔn)確定位詞語(yǔ)對(duì)畫面的影響。

比如我們用AI生成“一只熊和一只鳥的照片”，得到以下結(jié)果：

AI生成“一只熊和一只鳥的照片”

在生成過(guò)程中，如果我們對(duì)“熊”這個(gè)詞引入注意力機(jī)制，就可以把“熊”這個(gè)詞對(duì)畫面的貢獻(xiàn)記錄下來(lái)：

熊

同理，也可以把“鳥”這個(gè)詞對(duì)畫面的貢獻(xiàn)記錄下來(lái)：

鳥

我們可以清楚地看出“熊”和“鳥”兩個(gè)關(guān)鍵詞分別在不同的區(qū)域，以不同的強(qiáng)度對(duì)最終的圖像產(chǎn)生了影響。通過(guò)計(jì)算每個(gè)關(guān)鍵詞影響的區(qū)域面積和強(qiáng)度，我們就可以量化各個(gè)關(guān)鍵詞的貢獻(xiàn)了。

對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，“熊”“鳥”等詞，和一位藝術(shù)家的名字是沒(méi)有差別的，可以使用同樣的方法量化它們的貢獻(xiàn)。

如果我們將藝術(shù)家關(guān)鍵詞對(duì)生成圖像的貢獻(xiàn)視為藝術(shù)家本人的貢獻(xiàn)，我們從原理上就可以為藝術(shù)家的創(chuàng)意價(jià)值定價(jià)了。

如何具體計(jì)算藝術(shù)家應(yīng)得的收益呢？

一次的生成費(fèi)用乘以本次生成過(guò)程中某位藝術(shù)家的貢獻(xiàn)比例，就是這位藝術(shù)家在這次生成任務(wù)中產(chǎn)生的價(jià)值。

產(chǎn)生的價(jià)值扣除平臺(tái)的分成，就是藝術(shù)家理論上因貢獻(xiàn)創(chuàng)意產(chǎn)生的收益。

假設(shè)一個(gè)月內(nèi)，平臺(tái)共生成1000w張作品，涉及該藝術(shù)家關(guān)鍵詞的作品有50w張，平均每張貢獻(xiàn)為0.2，每張的平均生成費(fèi)用為1元，平臺(tái)分成20%，那么藝術(shù)家本月在平臺(tái)上的稅前收入為：50w×0.2×1元×80%=8萬(wàn)元。

如果藝術(shù)家的關(guān)鍵詞出圖效果很好，被足夠多的用戶反復(fù)使用的時(shí)候，他的收入很快會(huì)超過(guò)傳統(tǒng)的版權(quán)收入。

需要注意的一點(diǎn)是，在AI新范式下創(chuàng)作，要考慮什么樣的內(nèi)容更利于AI學(xué)習(xí)和AI生成使用。

因?yàn)锳I學(xué)習(xí)的是圖片內(nèi)容和提示詞的對(duì)應(yīng)關(guān)系，因此與其花大量時(shí)間創(chuàng)作一張包含很多內(nèi)容、畫面特征復(fù)雜、很難用一句畫描述清楚的作品，不如創(chuàng)作很多小作品。

比如，用統(tǒng)一的尺寸和構(gòu)圖、最好是三視圖，創(chuàng)作出一個(gè)角色后，更換不同的裝備、發(fā)色、身材，出一整套圖。然后清晰、詳細(xì)地用語(yǔ)言描述每個(gè)圖的特點(diǎn)，用的什么裝備、代表哪種身材、發(fā)色是什么、角度是什么。

創(chuàng)作的時(shí)候就想象使用者在進(jìn)行AI生成的時(shí)候，會(huì)對(duì)AI提出哪些要求，按照這些維度去創(chuàng)作圖像和提示語(yǔ)。這樣的數(shù)據(jù)會(huì)更容易被AI學(xué)習(xí)，更利于用戶使用和付費(fèi)。

AI新范式下創(chuàng)作

經(jīng)常使用AI創(chuàng)作的朋友會(huì)發(fā)現(xiàn)，國(guó)外AI創(chuàng)作論壇里公開(kāi)的提示語(yǔ)中經(jīng)常會(huì)包含一些特定的人名，他們很多是CG領(lǐng)域的知名藝術(shù)家。

比如上圖的這位greg rutkowski，就是A站上的一位波蘭藝術(shù)家。

A站上的一位波蘭藝術(shù)家

他的作品估計(jì)被收錄進(jìn)了訓(xùn)練數(shù)據(jù)當(dāng)中，所以可以被AI生成出來(lái)。

因?yàn)樗漠嬅骘L(fēng)格鮮明，類似油畫的厚重筆觸和有史詩(shī)感的配色風(fēng)格，放在提示語(yǔ)中會(huì)大大提高最終的畫面效果，因此今天很多用戶都把他的名字作為提示語(yǔ)的一部分。

藝術(shù)家的風(fēng)格分析

如果greg rutkowski在一個(gè)根據(jù)關(guān)鍵詞計(jì)算貢獻(xiàn)給他分成的平臺(tái)上入駐，為這個(gè)平臺(tái)提供自己作品的高清數(shù)據(jù)集，號(hào)召用戶使用其關(guān)鍵詞生成作品，按照他今天可能每天上百萬(wàn)次的關(guān)鍵詞引用頻率，也許已經(jīng)實(shí)現(xiàn)日入數(shù)萬(wàn)甚至數(shù)十萬(wàn)的收益了。

總結(jié)

最后放一些作者的思考。

一直以來(lái)，藝術(shù)創(chuàng)作和設(shè)計(jì)都是少數(shù)人的工作。

雖然大多數(shù)人都有審美，能判斷好的內(nèi)容，但兩個(gè)因素限制了普通人創(chuàng)作它們：一個(gè)是創(chuàng)意，普通人不可能每天在海量的作品中學(xué)習(xí)積累創(chuàng)意；另一個(gè)是表達(dá)，就算腦子里有一個(gè)畫面，要做成圖像，總得借助些技能。比如素描、油畫、水彩，包括3D建模，對(duì)普通人來(lái)講都有很高的門檻。

今天的AI解決兩個(gè)問(wèn)題：一個(gè)是學(xué)習(xí)創(chuàng)意，它比以往的模型都能更準(zhǔn)確地學(xué)習(xí)畫面中的創(chuàng)意，而且學(xué)習(xí)的范圍是整個(gè)互聯(lián)網(wǎng)當(dāng)中的圖像，沒(méi)有任何一個(gè)勤奮的畫家能夠?qū)W這么多作品。二是視覺(jué)表達(dá)，AI在理解創(chuàng)意的基礎(chǔ)上，生產(chǎn)出一張圖像的速度遠(yuǎn)遠(yuǎn)高于人類畫師。同時(shí)邊際成本也很低，畫一張畫，也就是正向傳播一次神經(jīng)網(wǎng)絡(luò)的算力成本，大約在幾分錢到幾毛錢之間。也就是說(shuō)今天的AI從底層改變了游戲規(guī)則，接下來(lái)會(huì)看到以下變化：

1）不會(huì)畫畫的人用AI生產(chǎn)高質(zhì)量視覺(jué)作品

2）互聯(lián)網(wǎng)上難以估量的圖像數(shù)據(jù)被重新組織起來(lái)，圍繞模型訓(xùn)練和數(shù)據(jù)標(biāo)注產(chǎn)生新的生意

3）圖片版權(quán)名存實(shí)亡，參與建立AI數(shù)據(jù)集成為藝術(shù)家的主要收益

4）傳統(tǒng)圖像處理軟件、3D建模軟件被圍繞AI范式建立的新工具取代

10年后再往回看，這可能會(huì)成為一個(gè)歷史節(jié)點(diǎn)。

新的節(jié)點(diǎn)

“鐵匠在啤酒中灑下眼淚，悲嘆自己沒(méi)有辦法在鐵路時(shí)代賣馬掌，但是這并不會(huì)使他們的馬掌更受歡迎。那些學(xué)習(xí)變成機(jī)械師的鐵匠才會(huì)保住自己的飯碗?！?/p>

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò) 生成圖片第一性原理

相關(guān)閱讀：