首頁(yè)>資訊 >
2D圖像轉(zhuǎn)3D僅需5秒,特斯拉的自動(dòng)駕駛技術(shù)有救了? 2022-03-29 10:36:35  來(lái)源:36氪

75年前,寶麗來(lái)相機(jī)拍攝出第一張即時(shí)照片,是人類(lèi)第一次以逼真的二維圖像快速捕捉三維世界,具有劃時(shí)代的意義。今天,人工智能的研究人員正在進(jìn)行相反的工作,力求在幾秒鐘的時(shí)間內(nèi)將靜止圖像的集合變成數(shù)字3D場(chǎng)景。

在本周的春季圖形技術(shù)大會(huì)(GTC)上,Nvidia展示了一種新的逆渲染方法(Instant NeRF)——從少量2D圖像中重建3D場(chǎng)景。逆向渲染使用AI來(lái)模擬現(xiàn)實(shí)世界里的光線(xiàn),基于Nvidia Research團(tuán)隊(duì)開(kāi)發(fā)的技術(shù),讓渲染過(guò)程極大地縮短,幾乎可以說(shuō)是立即發(fā)生。

事實(shí)上,在2D轉(zhuǎn)3D的相關(guān)領(lǐng)域,Nvidia一直在嘗試技術(shù)突破,致力于推出更強(qiáng)大的工具來(lái)完成這一過(guò)程。但即使是Nvidia這樣的行業(yè)領(lǐng)先公司,即時(shí)渲染3D也是一項(xiàng)極為艱難的技術(shù)挑戰(zhàn)。

這更凸顯出Instant NeRF的來(lái)之不易。關(guān)于這一成就,谷歌科學(xué)家Jon Barron在推特上表示:18個(gè)月前,訓(xùn)練NeRF還需要5小時(shí);2個(gè)月前,訓(xùn)練NeRF最快也需要5分鐘;就在近日,基于英偉達(dá)的最新技術(shù),訓(xùn)練NeRF最快也需要5秒!

01InstantNeRF的技術(shù)原理

據(jù)了解,Nvidia能夠取得這一成績(jī)的主要原因是采用了一種被稱(chēng)作多分辨率哈希編碼(Multiresolution Hash Encoding)的技術(shù)。在一篇論文《基于多分辨率哈希編碼的即時(shí)神經(jīng)圖形基元》中,Nvidia對(duì)這一新技術(shù)做了詳細(xì)說(shuō)明。

Nvidia表示:“計(jì)算機(jī)圖形基元基本上由有關(guān)外觀的各項(xiàng)參數(shù)的數(shù)學(xué)函數(shù)表示。參數(shù)的數(shù)學(xué)計(jì)算結(jié)果對(duì)于視覺(jué)保真度至關(guān)重要?!毖韵轮馐牵琋vidia希望在保持速度和數(shù)學(xué)函數(shù)緊湊度的同時(shí),還能捕獲高頻、局部的圖形細(xì)節(jié)。

為了達(dá)到上述要求,Nvidia采用了多分辨率哈希編碼技術(shù)。據(jù)Nvidia稱(chēng),該技術(shù)有著自適應(yīng)性和高效性?xún)纱筇匦?。函?shù)內(nèi)部只有兩個(gè)值需要進(jìn)行配置,分別為參數(shù)的數(shù)量T和所需的最佳分辨率N max。

該方法映射了來(lái)自各個(gè)角度的2D鏡頭的顏色和光線(xiàn)強(qiáng)度,然后生成數(shù)據(jù),再結(jié)合攝像機(jī)位置的相關(guān)數(shù)據(jù),將這些來(lái)自不同位置的圖像連接起來(lái),從而渲染出3D場(chǎng)景。

利用該技術(shù),只需經(jīng)過(guò)幾秒鐘的訓(xùn)練,便能在各種任務(wù)中達(dá)到較高的質(zhì)量。

在GTC會(huì)議上,Nvidia展示了一張圖片,圖片上是一個(gè)穿著像安迪·沃霍爾(Andy Warhol)的模特拿著一個(gè)老式的寶麗來(lái)相機(jī)。在參與者還沒(méi)有反應(yīng)過(guò)來(lái)的時(shí)候,Nvidia迅速把這張圖片轉(zhuǎn)換為了3D效果,引起了現(xiàn)場(chǎng)的陣陣驚嘆。

展示之后,Nvidia的Isha Salian在現(xiàn)場(chǎng)表示:Instant NeRF(中文叫神經(jīng)輻射場(chǎng))是由加州大學(xué)伯克利分校、Google研究院和加州大學(xué)圣地亞哥分校的研究人員在2020年開(kāi)始研發(fā)的一項(xiàng)技術(shù)。

該模型是使用Nvidia CUDA工具包庫(kù)開(kāi)發(fā)的。由于它是一個(gè)輕量級(jí)的神經(jīng)網(wǎng)絡(luò),它可以在單個(gè)Nvidia GPU上進(jìn)行訓(xùn)練和運(yùn)行,在核心卡上運(yùn)行最快。

幾年來(lái),研究人員一直在改進(jìn)這種從2D到3D的技術(shù),旨在為渲染出的成品增加更多畫(huà)面細(xì)節(jié),并提高渲染速度。Nvidia表示,新一代Instant NeRF模型是迄今為止最快的技術(shù)之一,將渲染時(shí)間從幾分鐘縮短到“幾乎瞬間”就能完成。

02NeRF的應(yīng)用范圍

Isha Salian進(jìn)一步闡釋說(shuō),這種方法可以應(yīng)用于廣泛的領(lǐng)域。它可用于為虛擬世界創(chuàng)建頭像或場(chǎng)景,以3D形式捕獲視頻會(huì)議參與者及其環(huán)境,甚至重建3D數(shù)字地圖的場(chǎng)景。

在上述領(lǐng)域,使用傳統(tǒng)方法創(chuàng)建3D場(chǎng)景可能需要數(shù)小時(shí)或更長(zhǎng)時(shí)間,具體取決于可視化的復(fù)雜性和分辨率。而NeRF使用神經(jīng)網(wǎng)絡(luò)系統(tǒng),效率和準(zhǔn)確度大幅度提升。

關(guān)于這一點(diǎn),Nvidia圖形研究副總裁David Luebke在一份聲明中點(diǎn)出:“Instant NeRF對(duì)3D來(lái)說(shuō)可能與數(shù)碼相機(jī)對(duì)2D一樣重要。因?yàn)樵?D攝影中,JPEG壓縮一直是關(guān)鍵的步驟,它大大提高了3D捕獲和共享的速度、易用性和覆蓋范圍。”

“這項(xiàng)技術(shù)可用于訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車(chē),通過(guò)捕捉現(xiàn)實(shí)世界物體的二維圖像或視頻片段來(lái)了解它們的大小和形狀。它還可以用于建筑和娛樂(lè)業(yè),通過(guò)快速生成真實(shí)環(huán)境的數(shù)字函數(shù),創(chuàng)作者可以在此基礎(chǔ)上進(jìn)行修改和構(gòu)建?!?/p>

業(yè)內(nèi)人士表示,NeRF在自動(dòng)駕駛、航空測(cè)量等領(lǐng)域也具有廣泛應(yīng)用前景。例如創(chuàng)建大范圍的高保真地圖,為機(jī)器人定位、導(dǎo)航等應(yīng)用提供幫助。此外,自動(dòng)駕駛系統(tǒng)通常需要重新模擬以前遇到的場(chǎng)景來(lái)進(jìn)行安全評(píng)估,然而,如果歷史記錄中存在任何的偏差都可能改變車(chē)輛的真實(shí)軌跡,因此需要沿著路徑進(jìn)行高保真的視圖渲染,這同樣需要NeRF技術(shù)。在自動(dòng)駕駛中,除了基本的視圖合成,以場(chǎng)景為條件的NeRF還能夠改變環(huán)境照明條件,例如相機(jī)曝光、天氣或一天中不同的時(shí)間,從而進(jìn)一步提升模擬駕駛場(chǎng)景的仿真度。

除了NeRF之外,Nvidia的研究人員還在探索如何利用這種輸入編碼技術(shù)來(lái)加速多種人工智能挑戰(zhàn),包括強(qiáng)化學(xué)習(xí)、語(yǔ)言翻譯和通用的深度學(xué)習(xí)算法。

關(guān)鍵詞: 駕駛技術(shù)

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片