秋霞成人理论无码电影网,99久久无码一区人妻a黑,99视频在线精品免费观看6

世界消息！“用嘴做視頻”已經(jīng)成真，AI讓短視頻創(chuàng)作者驚呼飯碗不保 2022-10-10 05:27:51　　來源：36氪

今年來，隨著算力的不斷增加和深度學(xué)習(xí)等技術(shù)的進(jìn)步，AI在內(nèi)容生產(chǎn)領(lǐng)域的應(yīng)用已經(jīng)不僅僅局限于圖片和文字。最近，內(nèi)容生成AI可以說正式進(jìn)入視頻時代，未來用描述性的文字直接生成腦海中的畫面將不再困難，人人都將能夠制作出電影級別的長短視頻。

當(dāng)看到下面這個“馬兒低頭喝水”的畫面時，相信每個人都會認(rèn)為這是對一段事先拍攝好的視頻加上了動漫化的濾鏡，但真實的情況卻是，這個視頻里的每一個像素全都是由AI來生成的，僅僅是對AI模型輸入了一句簡單“馬兒喝水”。

【資料圖】

據(jù)了解，該AI模型名為“Make-A-Video”，是由Meta AI的研究人員開發(fā)出來的，任意給模型輸入幾個單詞或幾行文字，就能生成符合語義的但在現(xiàn)實中卻并不存在的視頻畫面，而且風(fēng)格還可以多元化。

例如，將一些英文短句輸入模型之后，生成的視頻也都讓人嘆為觀止：

不得不說，現(xiàn)在人工智能的發(fā)展真的是日新月異，每隔一段時間就會給人不同的驚喜。

從圖像到視頻，生成模型功不可沒

最近幾年，人工智能在視覺領(lǐng)域的發(fā)展可謂是“神速”。去年1月，致力于“用通用人工智能造福全人類”的OpenAI公司基于GPT-3模型發(fā)布了劃時代的 DALL·E，實現(xiàn)了從文本生成圖像。

今年4月份，OpenAI發(fā)布的第二代DALL·E 2模型，再次為圖像生成領(lǐng)域樹立了全新標(biāo)桿，可以通過簡短的文本描述（prompt）來生成相應(yīng)的圖像，使得不會畫畫的人也可以將自己的想象力變?yōu)樗囆g(shù)創(chuàng)作，例如“羊駝打籃球”這句話生成的四張圖片看起來就非常符合大家預(yù)期的想象。

不僅如此，隨著文字描述的顆粒度不斷細(xì)化，生成的圖像也會越來越精準(zhǔn)，效果在非專業(yè)人士看來已經(jīng)相當(dāng)震撼。

但DALL-E 2這樣的模型仍然停留在二維創(chuàng)作即圖片生成領(lǐng)域，無法生成360度無死角的3D模型。但這依舊難不住極具創(chuàng)意的算法研究員，Google Research的一項最新成果——DreamFusion模型，即可通過輸入簡單的文本提示生成3D模型，不僅能夠在不同的光照條件下進(jìn)行渲染，而且生成的3D模型還具有密度、顏色等特性，甚至可以把生成的多個3D模型融合到一個場景里。

在生成3D圖片之后，Meta的算法人員將思路進(jìn)一步打開，向更高難度發(fā)起挑戰(zhàn)，開始探索用文字提示來直接生成視頻。

雖然本質(zhì)上來說，視頻就是一系列圖像的疊加，但相比于生成圖像，用文字來生成視頻時不僅需要生成相同場景下的多個幀，還要保證相鄰幀之間的連貫性，訓(xùn)練模型時可用的高質(zhì)量視頻數(shù)據(jù)非常少，但計算量卻很大，大大增加了視頻生成任務(wù)的復(fù)雜性。

9月29日，來自Meta的研究人員發(fā)布了Make-A-Video，這是一個基于人工智能的高質(zhì)量短視頻生成模型，相當(dāng)于視頻版的DALL·E，也被戲稱為“用嘴做視頻”，即可以通過文本提示創(chuàng)建新的視頻內(nèi)容，其背后使用的關(guān)鍵技術(shù)也同樣來自DALL-E等圖像生成器所使用的文本-圖像合成技術(shù)。

僅1周之后，谷歌CEO皮查伊就接連官宣了兩個模型來正面挑戰(zhàn)Meta的Make-A-Video，分別是Imagen Video與Phenaki。

與Make-A-Video相比，Imagen Video更加突出視頻的高清特性，能生成1280*768分辨率、每秒24幀的視頻片段，還能理解并生成不同藝術(shù)風(fēng)格的作品；理解物體的3D結(jié)構(gòu)，在旋轉(zhuǎn)展示中不會變形；甚至還繼承了Imagen準(zhǔn)確描繪文字的能力，在此基礎(chǔ)上僅靠簡單描述產(chǎn)生各種創(chuàng)意動畫。

而Phenaki則能根據(jù)200個詞左右的提示語生成2分鐘以上的較低分辨率長鏡頭，講述一個相對完整的故事。

在計算機(jī)視覺領(lǐng)域中，文本生成圖像或視頻用到最多的就是生成模型，生成模型也在最近的文本到圖像 AI 系統(tǒng)中取得了重大進(jìn)展，比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。這些新模型和算法的基本思路都來自于早期最出名的GAN(生成對抗網(wǎng)絡(luò))，即通過生成器和辨別器之間的相互對抗來生成圖像。但由于模型本身具有對抗性，因此很難進(jìn)行訓(xùn)練，而利用擴(kuò)散模型則可以解決這個問題，這也是今年最火的模型之一。

擴(kuò)散模型也是生成模型的一種，其背后的直覺和原理來源于物理學(xué)：氣體分子從高密度區(qū)域擴(kuò)散到低密度區(qū)域的現(xiàn)象與由于噪聲干擾而導(dǎo)致信息丟失的現(xiàn)象相似。所以通過引入噪聲導(dǎo)致信息的衰減，再嘗試通過去噪來生成圖像，就能通過多次迭代，使得模型每次都在給定一些噪聲輸入的情況下學(xué)習(xí)生成新圖像。如今，擴(kuò)散模型在密度估計、文本到語音、圖像到圖像、文本到圖像和 3D 合成等多種生成式建模任務(wù)中都取得了巨大成功。

短視頻創(chuàng)作者可暫時“松一口氣”

自人工智能得以真正發(fā)展以來，每當(dāng)有了令人驚嘆的新進(jìn)展后都會有相同的一個問題出現(xiàn)，即AI到底會不會取代人類，由擴(kuò)散模型帶火的文字生成視頻也不例外。

對于這個問題，Stability AI的新任首席信息官Daniel Jeffries曾經(jīng)表示，AI最終會帶來更多的工作崗位，就像相機(jī)的發(fā)明雖然取代了大部分畫家，但也創(chuàng)造了攝影師這一職業(yè)，同時還開辟了電影、電視這樣更大規(guī)模的全新產(chǎn)業(yè)。

雖然對于普通用戶等非專業(yè)人士來說，當(dāng)前AI生成的視頻效果已經(jīng)足夠驚艷，但相信真正的業(yè)內(nèi)人士能夠一眼看出AI還是缺乏對每一個鏡頭的精細(xì)控制，也沒有任何真正的思考注入到視頻的內(nèi)容當(dāng)中，對于AI取代視頻創(chuàng)作者的擔(dān)憂恐怕為時過早。

不過，這些AI技術(shù)對于工作的輔助作用有立竿見影的效果。如對于媒體行業(yè)來說，常常有“一圖勝千言”的情況發(fā)生，很多時候?qū)懞昧说奈淖?，總差一張恰到好處的配圖來畫龍點睛。

此外，如果不能恰當(dāng)?shù)匾脠D片并標(biāo)注來源，還會造成一定的法律風(fēng)險，當(dāng)有了AI輔助生成圖片或視頻內(nèi)容之后，雖然可以規(guī)避類似問題，但新的問題也接踵而來。

AI總在鉆各種法律的空子

2019年時，一款名為“ZAO”的AI換臉軟件曾經(jīng)火爆全網(wǎng)，用戶只需要在APP中上傳一張照片，就能將自己的臉替換成任何想要替換的人，并且人臉融合效果非常好，達(dá)到了以假亂真的程度。不過，盡管該軟件很有趣，并且將技術(shù)門檻降到最低，但很快也遭到了用戶的抵制，因為該軟件獲取的個人信息并無法保障其安全性，這很有可能讓不法分子鉆了空子。

同樣，在AI生成視頻領(lǐng)域，這樣的惡意創(chuàng)作依舊不可避免，出于安全和倫理的考慮，谷歌表示暫時不會發(fā)布兩個視頻生成模型的代碼或Demo。Meta也承認(rèn)，按需制作真實感視頻的能力存在一定的社會危害，因此將所有由AI生成的視頻內(nèi)容都加上了水印，以“確保觀眾知道這段視頻是由人工智能生成的，而不是捕捉到的視頻?！?/p>

通常情況下，傳統(tǒng)理論認(rèn)為，作為智力活動的創(chuàng)作只能由人類的思維活動來實現(xiàn)，即作品是自然人思想觀念的表達(dá)。但在人工智能時代，這一理論將會受到重大挑戰(zhàn)，人們也需要重新思考與之相關(guān)的新標(biāo)準(zhǔn)、新道德、新法規(guī)。

參考資料：

1.《真·拿嘴做視頻！Meta「AI導(dǎo)演」一句話搞定視頻素材，網(wǎng)友：我已跟不上AI發(fā)展速度》，量子位

2.《谷歌AI生成視頻兩連發(fā)：720p高清+長鏡頭，網(wǎng)友：對短視頻行業(yè)沖擊太大》，量子位

3.《圖像生成卷膩了，谷歌全面轉(zhuǎn)向文字→視頻生成，兩大利器同時挑戰(zhàn)分辨率和長度》，機(jī)器之心

關(guān)鍵詞：人工智能非專業(yè)人士研究人員

相關(guān)閱讀：