首頁>資訊 >
環(huán)球最資訊丨打造多模態(tài)認知AI引擎,「拓元智慧」已實現(xiàn)首款產(chǎn)品商業(yè)化落地 2022-11-29 08:39:47  來源:36氪

隨著元宇宙、AIGC、虛擬人等概念的流行,有關多模態(tài)內容生成等新一代AI技術的商業(yè)化落地引起了多方關注。比如,以Stable Diffusion、Midjourney為代表的文本生成圖像工具,激發(fā)了大量傳統(tǒng)內容制作行業(yè)的需求。而在圖像生成外,文本生成視頻、文本生成3D模型等更多模態(tài)內容的生成、落地則成為了不少科學家、工程師以及創(chuàng)業(yè)者持續(xù)研究、討論和攻克的方向。


(相關資料圖)

36氪日前接觸到的「拓元智慧」是其中一家利用多模態(tài)認知AI技術,進行商業(yè)化落地的公司。據(jù)介紹,拓元智慧成立于2022年初,也在同年獲得由銀杏谷資本、源數(shù)投資、卓源資本和漢仁資本投資的數(shù)千萬元天使輪融資。

據(jù)介紹,拓元智慧創(chuàng)始團隊包含林倞教授領銜的AI知名科學家及資深商業(yè)化及管理人才。公司創(chuàng)始人林倞教授,是中山大學人機物智能融合實驗室創(chuàng)立人,IAPRFellow,并具備豐富的產(chǎn)業(yè)界工作經(jīng)歷。據(jù)介紹,拓元智慧團隊致力于讓AI技術,尤其是以推理決策為核心的認知型AI技術,走出實驗室在現(xiàn)實生活和生產(chǎn)中創(chuàng)造價值。

談及創(chuàng)業(yè)契機,拓元智慧團隊表示,近兩年海內外對元宇宙的關注度很高,不論是Meta還是國內公司都有所動作。但在他們眼中,當前市面上還缺少可以規(guī)?;?、標準化應用的相關產(chǎn)品,而在這一相對的市場空白之下,創(chuàng)始團隊對這一領域具備技術積累和市場觀察及產(chǎn)業(yè)經(jīng)驗,拓元智慧也就此成立。

拓元智慧認為,AI的本質是人的智慧和能力的(時間和空間上的)延展,公司計劃從多模態(tài)認知AI引擎切入,通過低成本大模型、因果圖模型、心識模型等多技術棧結合,模擬人腦計算框架,賦予人工智能認知和交互能力,促進虛實世界的深度融合,創(chuàng)建與用戶新的鏈接方式,并成為未來元宇宙基礎設施的重要部分。

拓元智慧表示,未來,AI將真正實現(xiàn)類人化和智能化,從“模仿”,到具備“智商”,再到擁有“情商”,兼具想象和創(chuàng)造、推理和交互、陪伴和情感的能力,在數(shù)字空間(虛擬世界)中可能是我們某個真人的個性和價值觀的代表,也能夠創(chuàng)造有溫度能共情的虛擬身份和虛擬服務。他們彼此交互連接,運行發(fā)展創(chuàng)造,又與真人用戶緊密連接,進而反哺真實世界的運行,真正深入服務我們的生產(chǎn)和生活。在拓元智慧眼中,這才是“元宇宙”真正的意義和價值。

現(xiàn)階段,拓元智慧計劃以“數(shù)智人”為首個商業(yè)化落點,為普通人提供復刻"數(shù)字分身"的能力。這背后需要兩層技術的支持,首先在表皮層,拓元智慧可以快速做到對人外觀形象、神態(tài)動作及語音語調的模仿和復刻;而在大腦層,拓元智慧可以相對拉齊人的意圖、興趣和價值觀。在整體效果上,"我們的數(shù)智人會1:1復刻人的外形、聲音和動作,還有個性偏好,也就是實現(xiàn)"真人復刻"。"拓元智慧表示。

這兩層能力背后的主要的支撐除了大模型外還有兩個主要的模塊,分別是因果模型和心識模型。拓元智慧介紹,因果模型的引入會提升AI生成的內容效果,如讓數(shù)智人的外觀構建、聲音動作模仿的過程更加符合常識、穩(wěn)定和可控。而心識模型會更好地模擬人的價值觀,與大模型、因果模型融合從而實現(xiàn)人機互動與協(xié)同。

也基于此,拓元智慧當前構建了公司的第一個標準化產(chǎn)品——元分身。元分身主要幫助內容分享者制作從聲音到形象的真人數(shù)字分身,可廣泛應用于IP型短視頻創(chuàng)作、企業(yè)宣傳、模擬真人直播等場景,解決以下三大痛點:

1.提升內容創(chuàng)作效率和質量:僅需一次建模,即可不斷創(chuàng)作視頻,幫內容創(chuàng)作者省去繁雜的拍攝過程,讓時間回歸創(chuàng)作本身。

2.發(fā)布內容可控穩(wěn)定:視頻由數(shù)字分身以最佳狀態(tài)演繹,內容通過文字驅動,發(fā)布的作品可以通過圖靈測試(非專業(yè)人士難辨真假),并且支持大規(guī)模批量視頻生產(chǎn)。

3. 基于數(shù)字分身實現(xiàn)多模態(tài)人機交互:賦予數(shù)字分身各類行業(yè)知識及了解用戶意圖的能力,用高度自然的方式鏈接及服務用戶。

另外拓元智慧還表示,公司當前的制作價格是傳統(tǒng)視頻拍攝、制作的1/10甚至更低,相對做到了成本的降低和批量化生產(chǎn)。這背后也和公司的技術路線相關,拓元智慧林倞介紹,當前在業(yè)界,關于大模型的一個痛點是搭建成本和對數(shù)據(jù)的要求較高,而如果調用第三方的大模型,也會涉及到難以進行針對場景進行調參和訓練的問題。對此,拓元智慧在模型架構上進行了優(yōu)化,通過引入面向多模態(tài)生成的通用大模型,構建少標注、低成本的模型訓練和場景遷移能力,從而實現(xiàn)形象模仿、聲音復刻、文本重構和對話生成等多樣化內容生成。

在整體差異化上,拓元智慧表示,當前業(yè)內具備構建AI"大腦"能力的公司較少。不同的技術背景(如CG、NLP、3D建模等)決定了大家通過不同的路徑構建虛擬人和數(shù)智人。這其中也會產(chǎn)生效果差異,比如,CG和3D建模仍在努力解決流程復雜且無法模擬大腦智能的問題。綜合來看,公司表示,拓元智慧是較少能做到將認知層AI和感知層AI融合、應用好的廠商。

當前,公司的主要產(chǎn)品元分身平臺已經(jīng)發(fā)布月余,多個頭部客戶已呈現(xiàn)復購趨勢。接下來,公司還計劃打造元銷售、元陪伴等產(chǎn)品,在銷售和情感關懷場景落地。"不論是元宇宙還是內容創(chuàng)作,都可以挖掘出不少實實在在的需求,這些機會也必然會促進人工智能技術與應用場景快速融合,創(chuàng)造新的價值。"林倞總結表示。

關鍵詞: 因果模型 人工智能技術

相關閱讀:
熱點
圖片 圖片