首頁>資訊 >
11年,從虧損6個億到盈利6千萬,DeepMind不止于AlphaGo和AlphaFold 2021-11-01 12:23:17  來源:36氪

AI研究實驗室DeepMind收購并開源了MuJoCo,多關節(jié)動力學(MuJoCo)可以為DeepMind的機器人研究提供新的動力。這篇文章將追溯DeepMind是如何一直在機器人領域努力突破極限的。

DeepMind 終于逆襲了!

這家總部位于倫敦的AI研究公司在過去幾年虧損數億美元后,有史以來第一次實現了盈利!

DeepMind收購MuJoCo

在2020年,DeepMind實現了5960萬美元的利潤。

而僅在一年前的2019年,DeepMind交出的還是一份高達6.49億美元(約42億人民幣)的虧損賬單。

作為一家人工智能初創(chuàng)公司,DeepMind成立十幾年來,研發(fā)了不少明星產品,比如AlphaGo,AlphaFold2,不斷光環(huán)加身。但光環(huán)背后,它的商業(yè)化之路一直走得有點艱辛。

近期,DeepMind在宣布史上首次實現盈利之后,第一次開始出手收購。

10月19號,DeepMind宣布,將機器人模擬器平臺MuJoCo收購,并準備將其作為一個預編譯的開源庫發(fā)布,免費提供給研究人員。

DeepMind表示,預計將在2022年發(fā)布MuJoCo的代碼庫,并在Apache 2.0許可下將其作為開源軟件「繼續(xù)改進」。

「我們的機器人團隊一直在使用MuJoCo作為各種項目的模擬平臺。我們致力于開發(fā)和維護MuJoCo。MuJoCo作為一個免費的、開源的、社區(qū)驅動的項目,具有一流的能力。我們目前正在努力為MuJoCo的全面開源做準備?!笵eepMind表示。

DeepMind創(chuàng)始人Demis Hassabis表示,公司的初衷就是用人工智能推動科學發(fā)展,造福于人類。

DeepMind在機器人領域的進展

此次收購MuJoCo,并將其作為開源平臺開放給所有研究人員,并不是DeepMind第一次在機器人領域作出貢獻。

所以,DeepMind是如何一直在機器人領域努力突破極限的呢?

深度強化學習訓練機器人

2016年,DeepMind的研究人員展示了深度強化學習如何訓練真正的物理機器人。

研究表明,基于deep Q-functions的強化學習算法可以擴展到復雜的三維操作任務,并有效地學習深度神經網絡策略。

DeepMind進一步表明,通過在異步共享策略更新的多個機器人之間進行算法并行化,可以進一步減少訓練機器人的時間。

所提出的方法可以在模擬中學習各種3D操作技能和開門技能(通常被認為是在機器人訓練中比較復雜的任務),而無需手動設計行為表示。

產生靈活的行為

2018年,DeepMind發(fā)表了三篇主要論文,展示了機器人可以實現靈活自然的行為,來適應和解決任務。

科學家用各種模擬身體訓練agent,讓他們在不同的地形上跳躍、轉身和蹲伏。結果表明,agent在沒有收到具體指示的情況下學會了這些技能。

另一篇論文展示了一種訓練策略網絡的方法,該網絡模擬人類行為的動作捕捉數據,以預先學習諸如行走、從地面起身、轉彎和跑步等技能。

然后,這些行為經過調整,可以改變用途,并解決其他任務,如爬樓梯和通過有墻壁的走廊。

第三篇論文提出了一個基于最先進的生成模型的神經網絡體系結構。

這項研究展示了這種架構如何能夠學習不同行為之間的關系,并模仿向agent展示的特定動作。

經過訓練后,這些系統(tǒng)可以編碼一個觀察到的動作,并創(chuàng)造一個新的動作。

擴展數據驅動的機器人技術

DeepMind研究了一個數據驅動的機器人框架,該框架使用大量的機器人體驗數據集,然后使用學習獎勵函數將其擴展到幾個任務。

該框架可用于在真實機器人平臺上完成三種不同的物體操縱任務。

科學家們使用人類注釋作為監(jiān)督,讓agent學習獎勵功能,并用任務不可知(task-agnostic)的記錄經驗來演示任務。這有助于agent處理現實世界中無法直接獲得獎勵信號的任務。

基于學習到的獎勵和從不同任務中獲得的大量經驗數據集,使用批量強化學習離線學習機器人策略,這種方法可以訓練agent執(zhí)行具有挑戰(zhàn)性的操作任務,如堆疊剛性物體。

堆疊的新基準

最近,DeepMind推出了RGB堆疊,作為基于視覺的機器人操作任務的新基準。

在這里,機器人必須學會如何抓住不同的物體,并使它們相互平衡。這不同于以前的工作,因為所用物體非常多樣,為驗證結果的準確性也需要進行各種經驗評估。

結果表明,使用模擬和真實世界數據的組合可以學習復雜的多對象操作。

這個實驗為新物體的概括提出一個強有力的基線,也被認為是DeepMind在制造通用機器人方面的一個重大進步。

DeepMind現在將致力于讓機器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準已經與構建真實機器人的RGB堆疊環(huán)境、RGB對象的模型和3D打印信息的設計一起開源。

MuJoCo

最后,來聊聊這次DeepMind收購的MuJoCo。

MuJoCo(Multi-Joint Dynamics with Contact)是一款物理引擎模擬器,可促進機器人學、生物力學、圖形、動畫等需要快速準確模擬的領域的研發(fā)。

MuJoCo由Emo Todorov為Roboti LLC開發(fā),是第一批全功能模擬器之一,從零開始設計,通過觸點進行基于模型的優(yōu)化。

在DeepMind被收購之前,2015年至2021年間,MuJoCo一直是一款商業(yè)產品,也就意味著需要收費,而且并不便宜。

MuJoCo有助于提升計算密集型技術,如最佳控制、系統(tǒng)識別、物理一致狀態(tài)估計和自動化機構設計,然后將其應用于具有豐富接觸行為的復雜動態(tài)系統(tǒng)。

MuJoCo還有一些應用,比如,在物理機器人、游戲和交互式科學部署之前,經常會在MuJoCo上測試和驗證控制方案。

機器人研究的未來

今年,DeepMind的競爭對手OpenAI,在機器人領域投入多年的研究、資源和努力后,最終決定解散其機器人研究團隊,將重點轉移到數據更容易獲得的領域。

在機器人研發(fā)行業(yè),也有幾家基于機器人技術的公司已經關門或者正在嚴重虧損。在這種情況下,機器人盡管是一個看似利潤豐厚的行業(yè),但卻沒有買家。

不過,有谷歌的真金白銀的支持,再加上從不讓人失望的DeepMind的研發(fā)實力和研究機器人的決心,機器人領域的未來還是非常值得期待的。

參考資料

https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/

https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments

https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco

本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,編輯:小咸魚,36氪經授權發(fā)布。

關鍵詞: AlphaFold AlphaGo DeepMind

相關閱讀:
熱點
圖片 圖片