為什麼《王者榮耀》是理想的人工智能強化學習競賽場

2022.08.09
最近,不少玩家在YouTube等平台觀看Honor of Kings的預告片。這款萬眾期待的手遊計劃於今年底在全球逐步上線。

由騰訊遊戲天美工作室群研發的手遊《王者榮耀》2015年發布以來,常年躋身最受歡迎的多人網上戰術競技遊戲(MOBA)之列。

鮮有人知的是,《王者榮耀》不僅是一款現象級手遊,還是進行AI研究的試金石。

在今年4月落幕的第二屆開悟多智能體強化學習大賽中,充滿活力的學生開發團隊構建了基於強化學習(RL)的AI算法,可用於《王者榮耀》中自主攻防對抗。

由五名清華大學學生組成的團隊最終獲勝,他們表示,RL模型的理論能力在實際應用中並不如想象般容易。

組長陳華玉同學表示,儘管自己和其他團隊成員都是《王者榮耀》的忠實玩家,但「一開始,我們甚至無法創建遊戲環境,更不用說訓練智能體玩遊戲了。

他們用了五個月時間處理源代碼,慢慢探索遊戲架構,與來自全國其他頂尖大學的19 支團隊展開激烈角逐,最終摘得桂冠。

深度學習迎接挑戰

過去,國際象棋和圍棋等棋盤類遊戲曾為深度RL算法提供了理想的試驗環境。Google旗下DeepMind開發的電腦程式AlphaGo堪稱最廣為人知的案例之一。2016年,AlphaGo4-1擊敗18次國際賽冠軍、傳奇人物李世乭。

六年時光飛逝,遊戲AI研究的焦點已經從棋盤類遊戲轉移到更複雜的例如隱藏資訊類遊戲和策略類電子遊戲。

《王者榮耀》作為一款5V5 MOBA類遊戲,具有高複雜度、高挑戰性、強協作性的特點,正是 AI 研發所需要的理想環境。

隨着大賽賽程過半,其他團隊後來居上,而清華大學團隊的排名卻不斷下滑。有時,他們投入幾天的時間和精力訓練模型但改善甚微,而更糟糕的是模型會突然崩潰,團隊不得不重新開始。

陳華玉說:「這是個艱難、緩慢且枯燥的過程,起初令人沮喪。但終於,情況有了轉機。」

「我們仔細思考了可能導致錯誤的原因,然後一點點地對算法進行調整。突然之間,柳暗花明。」陳華玉設計的AI智能體在無數次迭代中不斷學習。對某一場景進行上千次訓練後,智能體可以計算出各個選項的勝率,最終選用最優解。

解決實際問題

環境越複雜,訓練出的AI就越聰明。騰訊AI實驗室總經理楊巍解釋道,遊戲提供了一個最優的研發環境,擁有明確的目標和指標,更容易進行測試和迭代。

「無論是由人類測試員提供還是由AI在對戰中生成,數據都是直接在虛擬世界中獲取,不需要額外的傳感器和處理器,」楊巍表示,這類範式同樣可以更有效地解決現實問題。

楊巍補充道,如果AI可以像人類那樣,在《王者榮耀》等複雜遊戲中學會即時感知、分析、理解、推理、決策和行動,那就預示着它具有更大的潛力解決廣泛領域的問題,例如機械人、農業、交通和能源等。

騰訊開悟平台的綜合實力讓這項比賽成為一個匯聚行業、學術界和研究機構的平台。

遊戲環境可以不斷提升AI能力,沉澱創新算法,打造更通用的AI工具。可以想象,下一個AI里程碑可能會誕生在策略遊戲中,並逐步應用於推動教育和醫療等更多實用性領域的發展。

                                                                                                       騰訊AI實驗室總經理楊巍

獲勝秘訣

陳華玉認為,團隊分工明確、隊員工程能力強和實現完全自動化的代理部署是他們此次比賽RL開發成功的關鍵。

「智能體發生錯誤時,我們知道算法的哪個部分出了問題,而且我們團隊擁有豐富的工程經驗,可以幫助我們更快地找到並解決問題。

在比賽的最後兩個月時間裏,他們已經可以完全自動化地部署智能體,甚至可以用AI選出最好的智能體。這樣一來,他們比其他團隊效率更高,便能夠進行更多實驗。

此外,每名成員被分配了明確具體的任務。陳華玉負責設計算法,一名隊員負責記錄和跟蹤實驗,一人管理神經網絡模型,另一人負責工程、測試和優化。

培養下一代AI先行者

在第二屆開悟多智能體強化學習大賽一舉奪魁後,今年3月陳華玉帶領新團隊報名參加了第31屆世界大學生夏季運動會的數智競技邀請賽。由騰訊舉辦的開悟AI多智能體博弈賽道是邀請賽項目之一。

陳華玉表示,數智競技邀請賽具有若干優勢,對學生和研究人員很有吸引力。

「使用先進的智能算法需要大量的算力,這超出了學生個人甚至許多大學實驗室的能力。

《王者榮耀》的世界規模龐大,如果研究人員單靠自己來進行那些測試,可能會耗時數年,成本亦令人望而卻步。而參賽團隊可以獲得騰訊開悟平台提供的強大算力和雲服務。

因此,數智競技邀請賽成為推動建立新生態的推進器,將產學研相結合,實現學生和機構之間的研究合作。參賽團隊來自加拿大、荷蘭、澳洲、美國和中國(包括香港)。借此機會,參賽者不僅可以與世界各地其他頂尖大學進行比拼,展開交流,而且可以在團隊內部和團隊之間建立聯繫。

騰訊天美L1工作室總經理、《王者榮耀》項目執行製作人黃藍梟表示:「我們依託《王者榮耀》AI和電競領域的沉澱,搭建充滿青春活力的世界大學生數智競技交流平台。」來自不同國家和地區的青年學子在賽事中跨越語言與地域的差異,進一步加深國際青年群體間的相互尊重和友誼。

黃藍梟說:「《王者榮耀》希望以教育、競賽和科研的共生發展模式推動AI產業生態的建設,從而成為AI產業發展的三條新紐帶。