首頁>資訊 >
焦點快看:1000個教AI打電競的人 2022-10-24 08:40:33  來源:36氪

你在叢林的邊緣出生,來到這個世界要學的第一件事,叫做“生存”,需要學會采集生活物資,知道獵殺或者躲避敵人。初始,你的水、食物數(shù)值為100,血量也是100;當水和食物二缺一時,就會在每個時間單位掉10滴血,血量變?yōu)?時,你將失去生命特征死亡。


(資料圖)

在危機四伏的叢林中行走,除了掉血而亡,還有好幾種死法,比如遭敵人獵殺成為“盤中餐”、不小心踩到致命巖漿等。此時,系統(tǒng)告訴你,當下是獵殺敵人的最佳時機,能快速積累助你“叢林逃生”的分數(shù),但你可能錯過擊殺NPC獲取升級裝備的機會,你是要分數(shù)還是要裝備呢?當背包裝滿時,你是選擇賣掉部分攻擊裝備,騰出空間儲存應(yīng)急藥物和生存物資,還是無論如何堅決不把武器裝備拱手于敵人?

這些問題并非假設(shè),而是AI在一場賽事中真實面臨的選擇。而將AI置于這種兩難境地的,是超參數(shù)科技的研究員們。今年4月,他們依托Neural MMO(簡稱NMMO)學術(shù)環(huán)境,發(fā)起系列「NMMO海量AI團隊生存挑戰(zhàn)賽」,探索海量AI的智能決策能力。截至今日,AIcrowd平臺數(shù)據(jù)顯示,有1000多位選手參與其中,他們來自不同的國家,大多是行業(yè)從業(yè)者和高校學生。

一個海量AI智能決策“比武場”

在地球生命的早期,生物有機體非常簡單。它們是微小的單細胞生物,幾乎沒有協(xié)調(diào)能力。然而,數(shù)十億年的進化通過競爭、合作和自然選擇,形成了復(fù)雜的生命形式,以及復(fù)雜的人類智能。

NMMO正是受此啟發(fā),模擬地球生命之間的競爭與合作,通過設(shè)計游戲規(guī)則、海量AI競爭與合作,以及標準的大規(guī)模強化學習算法,刺激AI在沒有監(jiān)督的情況下學習復(fù)雜的策略和技能,看是否能演進出更復(fù)雜的智能。它由麻省理工學院博士生Joseph Suarez開發(fā),結(jié)合了大型多人在線角色扮演游戲(MMORPG)玩法,是一個面向強化學習、支持海量AI研究的學術(shù)環(huán)境。

對大多數(shù)游戲玩家來說,MMORPG并不陌生,風靡全球的《魔獸世界》就是最經(jīng)典的MMORPG游戲。這類游戲的特點在于強社交屬性,以及豐富的交互和持續(xù)更迭的游戲內(nèi)容。NMMO很像游戲,不同的是玩家為AI,而非人類。

AI會作為玩家降生在游戲地圖的邊緣。整個地圖是一個抽象的生態(tài)系統(tǒng),設(shè)置了可供飲用的水、可獲取食物的森林、碰到即致命的巖漿、可轉(zhuǎn)化為存儲食物資源的魚和能生產(chǎn)高級魔法彈藥的水晶石等16種自然資源或元素。每個AI擁有局部的“視野”,需要水和食物來生存,當身體中儲存的水和食物低于一定量的時候,AI的生命值就開始下降。

NMMO中存在近戰(zhàn)、遠程、魔法三種攻擊方式,三者互相克制,是一種石頭剪刀布式的博弈。此外,AI之間除了互相攻擊,還可以攻擊NPC,由此獲得金錢和盔甲、武器等裝備。

AI們需要完成探索、覓食、戰(zhàn)斗和升級裝備等多重任務(wù),并根據(jù)這些技能的等級計算分數(shù)。這是一場AI小隊間的競爭,一支隊伍的得分將由某一項最高的個體得分所決定。因此,AI小隊需要實現(xiàn)高效分工合作,不同的AI承擔不同的角色任務(wù),以最優(yōu)團隊策略去獲取游戲的最終勝利。

在這個過程中,AI與NPC、隊友、敵方之間需要進行豐富的交互和博弈,非??简濧I自身的智能決策能力。AI要想在資源有限而競爭者眾的環(huán)境中更好地生活,就要學會讓步和協(xié)調(diào)雙方利益,比如給隊友送人頭,甚至和敵方合作獲取更好的裝備。

一場硅基生命體的“社會實驗”

在超參數(shù)科技的研究員陳嘉欣看來,NMMO的優(yōu)勢在于它是一個支持海量AI共存、交互,并涌現(xiàn)策略的生態(tài)系統(tǒng)。她所在的團隊目前正圍繞“AI社會”概念展開一系列的研究項目,其核心在于探索海量AI相互影響下所形成的自運轉(zhuǎn)社會系統(tǒng),而在強化學習領(lǐng)域頗具影響力的NMMO符合這類研究對環(huán)境的基本需求。

因此,超參數(shù)科技聯(lián)合麻省理工學院、清華大學深圳國際研究生院,以及數(shù)據(jù)科學挑戰(zhàn)平臺AIcrowd,共同主辦「NMMO海量AI團隊生存挑戰(zhàn)賽」的系列競賽,并向全球AI研究者、愛好者發(fā)出邀請。

陳嘉欣介紹,不同于打麻將、斗地主這類任務(wù)定義簡單而明確的游戲,NMMO是一個復(fù)雜的開放世界,有基本的采集、生存邏輯,也有戰(zhàn)斗、裝備系統(tǒng),“AI需要做符合底層規(guī)則和邏輯的行為”。但這只是進行研究的基礎(chǔ)條件,若想深入探索“AI社會”概念,促使海量AI涌現(xiàn)出更豐富、復(fù)雜的策略,研究員們需要對NMMO進行改良,重新設(shè)計交互、博弈機制。

在8月的新賽事中,研究員們引入了職業(yè)分工、毒圈機制、交易系統(tǒng)等新元素,通過加長決策鏈條進一步仿真現(xiàn)實世界的決策環(huán)境,將AI的決策難度再抬上一個等級。

新增的職業(yè)分工相當于是AI在這個虛擬世界中所承擔的“社會角色”。相較一開始就設(shè)定好固定角色的普通游戲,NMMO賽事里的AI可以在八種不同的職業(yè)中進行自主選擇。研究員們很喜歡這種有灰度的設(shè)置,期待看到AI在博弈中演化出屬于自己的角色。事實正是如此,賽事平臺視頻回放顯示,AI小隊在自主探索的過程中,逐漸出現(xiàn)了隊內(nèi)的職業(yè)分工,這種行為也在一定程度上提升了小隊的整體效率。

而與職業(yè)分工息息相關(guān)的另外兩種設(shè)定——裝備系統(tǒng)和交易系統(tǒng),則使AI小隊之間涌現(xiàn)出更加豐富、復(fù)雜的交互行為,AI們不再局限于互相攻擊、搶奪資源,可以自由買賣裝備、食物等物品,并根據(jù)不同的情況給物品定價。因此,有參賽者選擇避開沖突性高的進攻型策略,轉(zhuǎn)向致力于“搞錢”的迂回路線。研究者們觀察到,有AI小隊演化出了“低買高賣”的經(jīng)濟學行為,在眾多的競爭隊伍中贏得自己的相對優(yōu)勢,最終也取得不錯的比賽成績。

無論是整個團隊做好高效分工去正面對戰(zhàn),還是另辟蹊徑去集體遨游商海,都讓NMMO呈現(xiàn)出更接近人類社會的面貌。如果說最初的NMMO更像純粹的自然界,只為活命的AI更像野生動物;那經(jīng)過更新迭代的NMMO儼然已邁入人類社會,AI們也開始了商業(yè)文明之旅。

一群探索技術(shù)邊界的“先行者”

在上千個參賽者提交的比賽策略中,其實沒有關(guān)于AI智能決策問題的直接答案,但研究員們認為NMMO是“現(xiàn)實世界在虛擬環(huán)境的映射”,研究AI在環(huán)境中的每一個行動、決策都能帶來新的啟發(fā)和思考,最終會向著解決現(xiàn)實世界中具有挑戰(zhàn)性的實際問題轉(zhuǎn)化,真正幫助相應(yīng)領(lǐng)域的發(fā)展。

超參數(shù)科技高級研發(fā)總監(jiān)朱曉龍觀察到,在數(shù)字化、智能化轉(zhuǎn)型的時代大背景下,其實存在非常多智能決策應(yīng)用場景,比如智能運輸調(diào)度、經(jīng)濟政策制定等,而NMMO系列挑戰(zhàn)賽或能起到助推器的作用。比如,Salesforce Research和哈佛大學的研究,就是通過在類似的仿真環(huán)境中觀察AI對稅收政策的反應(yīng),幫助使用者推演出最優(yōu)解決思路,最后實踐證實了AI對于政策設(shè)計和提高社會福利具有促進意義。

隨著AI研究者和行業(yè)實踐者更多地進行聯(lián)合探索,AI近幾年已經(jīng)逐步成為“顯學”,從僅能被感知到影子的“推薦算法”變?yōu)楫a(chǎn)品的核心組成部分,近期風頭無兩的“AI繪畫”正是典型代表。這一切從Google兩個研究員開始,2012年他們在實驗室訓練深度學習網(wǎng)絡(luò),指導(dǎo)計算機去畫貓臉圖片。歷經(jīng)十年技術(shù)更迭、沉淀,AI繪畫終于迎來爆發(fā),出現(xiàn)如DALL·E2、Midjourney、Stable Diffusion等令人驚嘆的成果,并在短短幾個月內(nèi)實現(xiàn)飛速更新和廣泛應(yīng)用。

放在十年前,人們很難想象的是,有一天,AI會跑到文學藝術(shù)的領(lǐng)地上來。正如當下,研究者們也很難預(yù)料NMMO賽事所做的技術(shù)探索未來會迸發(fā)出怎樣的革新力量,最終能創(chuàng)造出怎樣的全新物種。唯一可以確定的是,AI作為數(shù)字智能時代最受關(guān)注的前沿技術(shù)之一,將深度融入人類的未來生活。

關(guān)鍵詞: 職業(yè)分工 強化學習 交易系統(tǒng)

相關(guān)閱讀:
熱點
圖片 圖片