首頁>資訊 >
世界看熱訊:Meta這套生成式AI,專為全身Avatar而來 2023-03-27 19:45:09  來源:36氪

一提起Meta Avatar虛擬化身,常常有人吐槽它只有半截身子,看起來不自然。的確,盡管Quest整體VR體驗(yàn)優(yōu)秀,但出于對硬件設(shè)計(jì)、成本的考慮,技術(shù)上依然有限制,比如不能準(zhǔn)確追蹤下半身,而這種限制也影響了早期的一些VR社交應(yīng)用,比如《Rec Room》。


【資料圖】

Quest不能追蹤下半身,是因?yàn)轭^顯不具備相應(yīng)的傳感器,而Meta也沒有推出官方的體感追蹤套件(比如PC VR頭顯可使用Vive Tracker)。Meta的策略,是盡可能簡化VR的使用流程,如果為頭顯配備定位模塊,無疑讓設(shè)置過程更復(fù)雜,且硬件成本更高。為了滿足用戶對全身Avatar的需求,Meta不久前為Avatar加入了模擬的腿部運(yùn)動,并通過Body Tracking API開放給開發(fā)者。

據(jù)了解,Meta Avatar將通過頭、手三點(diǎn)的定位信息來推算下半身動作,這顯然并不精準(zhǔn)。拿《VRChat》來講,雖然該應(yīng)用中的虛擬化身有下半身,但并不能跟隨用戶下半身運(yùn)動而變化,,意味著Avatar不能模擬自然下蹲、躺下等動作,如果用戶在開啟VR應(yīng)用時(shí)摘下頭顯放在桌上或地上,VR內(nèi)的Avatar可能會呈現(xiàn)奇怪的姿勢,具有一定恐怖谷效應(yīng)。

為了完善Avatar下半身模擬的效果,Meta研發(fā)了一種基于MLP架構(gòu)的條件擴(kuò)散模型:AGRoL(Avatars Grow Legs),該模型宣稱可根據(jù)稀疏的信號生成全身姿態(tài),由于其運(yùn)行速度足夠快,因此也適合VR社交等在線多人應(yīng)用。

關(guān)于AGRoL

Meta指出,隨著AR/VR用戶群增長,越來越多的人渴望能自然、精準(zhǔn)控制的全身Avatar。然而,VR一體機(jī)在下半身追蹤上具有一定局限,因?yàn)樗煌ㄟ^頭顯、手柄來定位,只能捕捉到少量、稀疏IMU的信號,而且通常僅用于定位和重建上半身部位,比如頭部和手腕。想要定位下半身,通常需要額外的IMU模塊,缺點(diǎn)是成本高、使用不方便。

簡單來講,Quest系統(tǒng)不能通過頭顯捕捉的信息準(zhǔn)確的追蹤下半身,而只能通過追蹤上半身關(guān)節(jié)運(yùn)動來提取有限的信息,用于合成下半身運(yùn)動。也就是說,用算法來預(yù)測和模擬Avatar的下半身動作。通常,從頭、手三點(diǎn)預(yù)測全身動作的算法依賴于生成模型,比如標(biāo)準(zhǔn)化流(Normalizing Flow),或是變分自編碼器(VAE)。而在各類生成模型中,擴(kuò)散模型開始在圖像、視頻生成方面取得不錯(cuò)的成果,尤其是條件擴(kuò)散模型。

因此,Meta科研人員提出了一種全新的條件擴(kuò)散模型:AGRoL(全稱為“Avatar長腿”),該模型由簡單的多層感知器架構(gòu)(MLP)、運(yùn)動數(shù)據(jù)調(diào)節(jié)方案組成,專門以稀疏信號為條件,根據(jù)上半身定位來生成全身姿態(tài)。據(jù)了解,這種只利用稀疏定位信息重建全身姿態(tài)的擴(kuò)散模型,為市面上首例。

據(jù)稱,AGRoL是專門為條件運(yùn)動合成任務(wù)量身定制的,可預(yù)測出準(zhǔn)確、流暢的全身運(yùn)動。與常見的擴(kuò)散架構(gòu)相反,它基于緊湊型架構(gòu),可實(shí)時(shí)運(yùn)行(在單個(gè)NVIDIA V100 GPU上運(yùn)行時(shí),計(jì)算過程僅6毫秒),因此可用于在線身體追蹤應(yīng)用,比如VR社交軟件、多人VR游戲等等。

此外AGRoL提升了MLP網(wǎng)絡(luò)性能,并超越了此前的方案,明顯降低了抖動誤差,因此和AvatarPoser等其他模型相比,ARGoL生成的動作更加平滑。此外,在追蹤信號丟失的情況下,ARGoL的準(zhǔn)確度下降不多,因此在追蹤信號稀疏的情況下也能較準(zhǔn)確的模擬運(yùn)動。

不過,目前ARGoL方案可能出現(xiàn)地板穿透偽影,后續(xù)或許可以通過額外的物理約束,來改善該問題。

其他VR全身定位方案

除了預(yù)測算法外,VR也可以使用其他的全身動捕方案,比如:光學(xué)Marker、深度相機(jī)、RGB相機(jī)骨骼動作識別等等。相比之下,AGRoL雖然依靠預(yù)測而非準(zhǔn)確追蹤,但它的優(yōu)勢是成本低,用戶無需購買甚至設(shè)置額外的硬件,因此用起來很方便。

除了AGRoL外,此前也有將人體運(yùn)動數(shù)據(jù)與機(jī)器學(xué)習(xí)模型結(jié)合的方案,比如Standable。這是一種無攝像頭全身追蹤方案,主要是通過算法來模擬VR追蹤不到的下肢(如骨盆、膝蓋、腿部或關(guān)節(jié)處),其特點(diǎn)是校準(zhǔn)流程輕量化,只需要確認(rèn)眼部位置即可,此外支持復(fù)雜的動作模擬,比如蹲下、躺下、趴下、走路、慢跑等等。相比于Standable,AGRoL的優(yōu)勢是專為Quest打造,與硬件配合更好,尤其是實(shí)時(shí)運(yùn)行能力強(qiáng)。

此前青亭網(wǎng)也曾報(bào)道多種VR全身定位方案,比如卡內(nèi)基梅隆大學(xué),在VR手柄上配備廣角相機(jī)來追蹤下半身,或是Meta此前提出的基于電磁原理的6D姿態(tài)追蹤方案。值得注意的是,索尼在去年也推出了便攜式全身動捕產(chǎn)品:Mocopi(售價(jià)360美元),未來也許和VR可以有很好的結(jié)合。

參考:

https://research.facebook.com/file/887324682720918/Avatars-Grow-Legs-Generating-Smooth-Human-Motion-from-Sparse-Tracking-Inputs-with-Diffusion-Model.pdf

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片