AI研究實驗室DeepMind收購并開源了MuJoCo,多關節(jié)動力學(MuJoCo)可以為DeepMind的機器人研究提供新的動力。這篇文章將追溯DeepMind是如何一直在機器人領域努力突破極限的。
DeepMind 終于逆襲了!
這家總部位于倫敦的AI研究公司在過去幾年虧損數億美元后,有史以來第一次實現了盈利!
DeepMind收購MuJoCo
在2020年,DeepMind實現了5960萬美元的利潤。
而僅在一年前的2019年,DeepMind交出的還是一份高達6.49億美元(約42億人民幣)的虧損賬單。
作為一家人工智能初創(chuàng)公司,DeepMind成立十幾年來,研發(fā)了不少明星產品,比如AlphaGo,AlphaFold2,不斷光環(huán)加身。但光環(huán)背后,它的商業(yè)化之路一直走得有點艱辛。
近期,DeepMind在宣布史上首次實現盈利之后,第一次開始出手收購。
10月19號,DeepMind宣布,將機器人模擬器平臺MuJoCo收購,并準備將其作為一個預編譯的開源庫發(fā)布,免費提供給研究人員。
DeepMind表示,預計將在2022年發(fā)布MuJoCo的代碼庫,并在Apache 2.0許可下將其作為開源軟件「繼續(xù)改進」。
「我們的機器人團隊一直在使用MuJoCo作為各種項目的模擬平臺。我們致力于開發(fā)和維護MuJoCo。MuJoCo作為一個免費的、開源的、社區(qū)驅動的項目,具有一流的能力。我們目前正在努力為MuJoCo的全面開源做準備?!笵eepMind表示。
DeepMind創(chuàng)始人Demis Hassabis表示,公司的初衷就是用人工智能推動科學發(fā)展,造福于人類。
DeepMind在機器人領域的進展
此次收購MuJoCo,并將其作為開源平臺開放給所有研究人員,并不是DeepMind第一次在機器人領域作出貢獻。
所以,DeepMind是如何一直在機器人領域努力突破極限的呢?
深度強化學習訓練機器人
2016年,DeepMind的研究人員展示了深度強化學習如何訓練真正的物理機器人。
研究表明,基于deep Q-functions的強化學習算法可以擴展到復雜的三維操作任務,并有效地學習深度神經網絡策略。
DeepMind進一步表明,通過在異步共享策略更新的多個機器人之間進行算法并行化,可以進一步減少訓練機器人的時間。
所提出的方法可以在模擬中學習各種3D操作技能和開門技能(通常被認為是在機器人訓練中比較復雜的任務),而無需手動設計行為表示。
產生靈活的行為
2018年,DeepMind發(fā)表了三篇主要論文,展示了機器人可以實現靈活自然的行為,來適應和解決任務。
科學家用各種模擬身體訓練agent,讓他們在不同的地形上跳躍、轉身和蹲伏。結果表明,agent在沒有收到具體指示的情況下學會了這些技能。
另一篇論文展示了一種訓練策略網絡的方法,該網絡模擬人類行為的動作捕捉數據,以預先學習諸如行走、從地面起身、轉彎和跑步等技能。
然后,這些行為經過調整,可以改變用途,并解決其他任務,如爬樓梯和通過有墻壁的走廊。
第三篇論文提出了一個基于最先進的生成模型的神經網絡體系結構。
這項研究展示了這種架構如何能夠學習不同行為之間的關系,并模仿向agent展示的特定動作。
經過訓練后,這些系統(tǒng)可以編碼一個觀察到的動作,并創(chuàng)造一個新的動作。
擴展數據驅動的機器人技術
DeepMind研究了一個數據驅動的機器人框架,該框架使用大量的機器人體驗數據集,然后使用學習獎勵函數將其擴展到幾個任務。
該框架可用于在真實機器人平臺上完成三種不同的物體操縱任務。
科學家們使用人類注釋作為監(jiān)督,讓agent學習獎勵功能,并用任務不可知(task-agnostic)的記錄經驗來演示任務。這有助于agent處理現實世界中無法直接獲得獎勵信號的任務。
基于學習到的獎勵和從不同任務中獲得的大量經驗數據集,使用批量強化學習離線學習機器人策略,這種方法可以訓練agent執(zhí)行具有挑戰(zhàn)性的操作任務,如堆疊剛性物體。
堆疊的新基準
最近,DeepMind推出了RGB堆疊,作為基于視覺的機器人操作任務的新基準。
在這里,機器人必須學會如何抓住不同的物體,并使它們相互平衡。這不同于以前的工作,因為所用物體非常多樣,為驗證結果的準確性也需要進行各種經驗評估。
結果表明,使用模擬和真實世界數據的組合可以學習復雜的多對象操作。
這個實驗為新物體的概括提出一個強有力的基線,也被認為是DeepMind在制造通用機器人方面的一個重大進步。
DeepMind現在將致力于讓機器人更好地理解不同幾何形狀物體間的相互作用。RGB堆疊基準已經與構建真實機器人的RGB堆疊環(huán)境、RGB對象的模型和3D打印信息的設計一起開源。
MuJoCo
最后,來聊聊這次DeepMind收購的MuJoCo。
MuJoCo(Multi-Joint Dynamics with Contact)是一款物理引擎模擬器,可促進機器人學、生物力學、圖形、動畫等需要快速準確模擬的領域的研發(fā)。
MuJoCo由Emo Todorov為Roboti LLC開發(fā),是第一批全功能模擬器之一,從零開始設計,通過觸點進行基于模型的優(yōu)化。
在DeepMind被收購之前,2015年至2021年間,MuJoCo一直是一款商業(yè)產品,也就意味著需要收費,而且并不便宜。
MuJoCo有助于提升計算密集型技術,如最佳控制、系統(tǒng)識別、物理一致狀態(tài)估計和自動化機構設計,然后將其應用于具有豐富接觸行為的復雜動態(tài)系統(tǒng)。
MuJoCo還有一些應用,比如,在物理機器人、游戲和交互式科學部署之前,經常會在MuJoCo上測試和驗證控制方案。
機器人研究的未來
今年,DeepMind的競爭對手OpenAI,在機器人領域投入多年的研究、資源和努力后,最終決定解散其機器人研究團隊,將重點轉移到數據更容易獲得的領域。
在機器人研發(fā)行業(yè),也有幾家基于機器人技術的公司已經關門或者正在嚴重虧損。在這種情況下,機器人盡管是一個看似利潤豐厚的行業(yè),但卻沒有買家。
不過,有谷歌的真金白銀的支持,再加上從不讓人失望的DeepMind的研發(fā)實力和研究機器人的決心,機器人領域的未來還是非常值得期待的。
參考資料
https://analyticsindiamag.com/deepminds-progress-over-the-years-in-robotics/
https://deepmind.com/blog/article/producing-flexible-behaviours-simulated-environments
https://deepmind.com/research/publications/2019/Scaling-data-driven-robotics-with-reward-sketching-and-batch-reinforcement-learning https://deepmind.com/blog/announcements/mujoco
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,編輯:小咸魚,36氪經授權發(fā)布。
- 濕地之美|廣州海珠濕地
- (熱點觀察 漫評)美國對歐洲盟友“下狠手”
- 全球微動態(tài)丨德媒文章:政治極化愈演愈烈,美國民主面臨墮落
- 每日觀察!海河觀津丨百萬候鳥來“息”,它們?yōu)楹纹珢郾贝蟾郏?/a>
- 焦點!一起來拍中國空間站!
- 焦點播報:北京新增本土感染者16例 詳情公布
- 天天快看點丨遼寧匯聚高校校友資源 引青年人才在遼創(chuàng)新創(chuàng)業(yè)
- 每日熱文:夢天成功發(fā)射!天空飄來一個字:6
- 環(huán)球最資訊丨長圖丨“院士天團”做優(yōu)“湖南飯”,該是什么味?
- 常益懷等5市州明早有大霧 出行請注意安全
- 環(huán)球動態(tài):11月全省溫高干旱持續(xù)發(fā)展
- 【全球獨家】10月制造業(yè)PMI為49.2% 建筑業(yè)景氣水平較高
- 環(huán)球今日訊!亞馬遜營業(yè)利潤率下降至2% 國內頭部電商或進一步搶占海外市場
- 國家藥監(jiān)局:促進彩色隱形眼鏡生產經營企業(yè)規(guī)范化發(fā)展
- 即時焦點:智慧芽升級科創(chuàng)力評估平臺 累計上線12條產業(yè)技術鏈
- 【世界熱聞】內蒙古啟動人力資源誠信服務示范機構評選
- 環(huán)球觀焦點:內蒙古:這5項職業(yè)資格考試暫停
- 全球熱門:飛天圓夢|靜待夢天,中國空間站在軌建造收官在即
- 飛天圓夢|“夢天”已就位!楊利偉動情講述“初代”航天人故事
- 對標保時捷Taycan?大眾中國功勛蘇偉銘親自下場造車