首頁(yè)>資訊 >
如何成為表情管理大師?AI或許能給你不一樣的答案 2022-02-08 10:41:12  來(lái)源:36氪

如果你看過(guò)《驚奇隊(duì)長(zhǎng)》與《雙子殺手》這些電影,你就會(huì)發(fā)現(xiàn),塞繆爾·杰克遜和威爾·史密斯看起來(lái)要比他們出席其他活動(dòng)時(shí)年輕得多,因?yàn)殡娪皥F(tuán)隊(duì)通過(guò)好幾個(gè)專業(yè)人員,手動(dòng)編輯了他們出現(xiàn)的數(shù)百小時(shí)的所有場(chǎng)景內(nèi)容,這才使得他們看起來(lái)十分年輕且表情更為豐富。

這是一項(xiàng)十分巨大的工程,但也僅限于現(xiàn)在的影視制作行業(yè)。據(jù)悉,當(dāng)前已有研究人員通過(guò)AI對(duì)視頻中的人臉進(jìn)行高效編輯,同樣的工作在AI的幫助下幾分鐘內(nèi)便能完成。

AI闖入視頻編輯

事實(shí)上,AI幫助創(chuàng)作者美化面部、編輯面部表情并不是什么新鮮事,當(dāng)前有許多技術(shù)都可以讓創(chuàng)作者在圖像中添加微笑,讓你看起來(lái)更年輕或更老,所有這些都使用基于AI的算法自動(dòng)進(jìn)行。

不過(guò)它們主要應(yīng)用于圖像領(lǐng)域,因?yàn)閳D片相較于哈希值巨大的視頻來(lái)說(shuō)要容易得多,但是近期實(shí)驗(yàn)室傳來(lái)的結(jié)果打破了這種認(rèn)知,研究人員認(rèn)為通過(guò)小的調(diào)整也可以將相同的技術(shù)應(yīng)用于視頻,這對(duì)電影行業(yè)來(lái)說(shuō)是一個(gè)巨大的好消息。

因?yàn)楫?dāng)前電影行業(yè)存在一個(gè)問(wèn)題是,目前這些生成的"舊版本"編輯圖像不僅看起來(lái)很奇怪,而且在視頻中使用時(shí),會(huì)出現(xiàn)故障和偽影,你肯定不希望在一部百萬(wàn)美元的電影中出現(xiàn)這些問(wèn)題。

這是因?yàn)楂@取人物的視頻比獲得圖片要困難得多,這使得訓(xùn)練這種需要許多不同的示例才能理解該做什么、不該做什么,AI模型的訓(xùn)練因此變得更加困難,這種強(qiáng)大的數(shù)據(jù)依賴性是當(dāng)前AI距離人類理想的機(jī)器智能十分遙遠(yuǎn)的原因之一。

但是特拉維夫大學(xué)的研究人員Rotem Tzaban解決了這一難題,他轉(zhuǎn)變了思路,通過(guò)輕微改變圖像訓(xùn)練的模型,也達(dá)到了提高AI自動(dòng)編輯視頻質(zhì)量的目的,同時(shí)不需要要那么多視頻示例來(lái)輔助訓(xùn)練。當(dāng)前,使用圖像訓(xùn)練模型的AI編輯視頻,除了要編輯的單個(gè)視頻之外,它不需要任何東西,你可以給人物添加微笑,也可以使你看起來(lái)更年輕或更老,甚至還可以與動(dòng)畫視頻一起使用。

當(dāng)然,新的訓(xùn)練模型也使用的是GAN(假設(shè)我們有兩個(gè)網(wǎng)絡(luò),G和D。G是一個(gè)生成圖片的網(wǎng)絡(luò),它接收一個(gè)隨機(jī)的噪聲z,通過(guò)這個(gè)噪聲生成圖片,記作G(z);D是一個(gè)判別網(wǎng)絡(luò),判別一張圖片是不是“真實(shí)的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實(shí)圖片的概率,如果為1,就代表100%是真實(shí)的圖片,而輸出為0,就代表不可能是真實(shí)的圖片。在訓(xùn)練過(guò)程中,生成網(wǎng)絡(luò)G的目標(biāo)就是盡量生成真實(shí)的圖片去欺騙判別網(wǎng)絡(luò)D。而D的目標(biāo)就是盡量把G生成的圖片和真實(shí)的圖片分別開來(lái)。這樣,G和D構(gòu)成了一個(gè)動(dòng)態(tài)的“博弈過(guò)程”,最后我們便得到了一個(gè)生成式的模型G,它可以用來(lái)生成圖片),新的AI模型僅在編碼部分有所改動(dòng)。

GAN如何發(fā)揮作用?

因此,在這種情況下,它可以使用任何基于GAN架構(gòu)的模型,例如StyleGAN。這只是NVIDIA幾年前發(fā)布的用于面部圖像識(shí)別的GAN架構(gòu),但是其改造的結(jié)果卻非常令人滿意。其實(shí),生成模型本身并不那么重要,因?yàn)樗梢耘c您可以找到的任何強(qiáng)大的GAN架構(gòu)一起使用。

是的,即使這些模型都經(jīng)過(guò)圖像訓(xùn)練,但它們也都可以用來(lái)執(zhí)行視頻編輯。假設(shè)你將發(fā)送的視頻人物與現(xiàn)實(shí)人物是高度吻合的,那么AI將只是專注于保持真實(shí)感,而不是像我們?cè)谝曨l合成工作中必須做的那樣創(chuàng)建真正一致的視頻。

因此,每個(gè)圖像都將單獨(dú)處理,而不是發(fā)送整個(gè)視頻并期望獲得新視頻作為回報(bào)。這種假設(shè)使任務(wù)變得更加簡(jiǎn)單,但還有更多的挑戰(zhàn)需要面對(duì),比如保持如此逼真的視頻,其中每一幀都能流暢地轉(zhuǎn)到下一幀,而不會(huì)出現(xiàn)明顯的故障。

在這里,他們將視頻的每一幀作為輸入圖像,僅提取面部并對(duì)齊(1)以保持一致性,這是我們將要看到的必不可少的一步,使用他們預(yù)先訓(xùn)練的編碼器(2)和生成器(3)對(duì)幀進(jìn)行編碼并為每個(gè)幀生成新版本。不幸的是,這并不能解決一些現(xiàn)實(shí)問(wèn)題,即新面孔在從一幀到另一幀時(shí)可能看起來(lái)很奇怪或不合時(shí)宜,以及奇怪的照明錯(cuò)誤和背景差異。

為了解決這個(gè)問(wèn)題,他們將進(jìn)一步訓(xùn)練初始生成器(3),并使用它來(lái)幫助使所有幀中的生成器更加相似和全局一致。他們還引入了另外兩個(gè)步驟,一個(gè)編輯步驟和一個(gè)他們稱之為"拼接-調(diào)諧"的新操作。

編輯步驟(4)將簡(jiǎn)單地獲取圖像的編碼版本并對(duì)其進(jìn)行一些更改。在這種情況下,這是它將學(xué)會(huì)改變它以使該人看起來(lái)更老的部分。因此,將訓(xùn)練模型以了解要移動(dòng)哪些參數(shù)以及修改圖像的正確特征以使人看起來(lái)更老。比如增加一些白發(fā),增加皺紋等。

然后,這種拼接調(diào)整方法(5)將獲取你在此處看到的編碼圖像,并將經(jīng)過(guò)訓(xùn)練,以從編輯的代碼中生成最適合背景和其他幀的圖像。它將通過(guò)獲取新生成的圖像,將其與原始圖像進(jìn)行比較,并找到僅使用蒙版替換面部并保持裁剪圖像的其余部分不變的最佳方法來(lái)實(shí)現(xiàn)這一目標(biāo)。

最后,我們將修改后的人臉粘貼回框架(6)。這個(gè)過(guò)程非常簡(jiǎn)單,允許制作真正高質(zhì)量的視頻,因?yàn)槟阒恍枰谀P椭胁眉艉蛯?duì)齊的臉,從而大大降低了計(jì)算需求和任務(wù)的復(fù)雜性。因此,即使人臉顯示很小,比如說(shuō)200像素的面積,你仍然可以將其保持一個(gè)相當(dāng)高分辨率的視頻。

本文來(lái)自微信公眾號(hào)“Techsoho”(ID:scilabs),作者:Light,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 你不 能給 管理大師

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片