“隻見 4 号球員在隊友的配合下迅速攻破後防,單刀直入,一腳射門,球,進了!”
觀衆朋友們大家好,您現在看到的是谷歌 AI 足球比賽的現場,場上身着黃色球衣的是來自清華大學的 AI 球員。
這屆清華 AI 可不一般,他們在艱苦訓練之下,不僅有個人能力突出的明星球員,也有世界上最強最緊密的團隊合作。
在多項國際比賽中所向披靡,奪得冠軍。
“Oh,現在 7 号接過隊友傳來的助攻,臨門一腳,球又進了!”
言歸正傳,以上其實是清華大學在足球遊戲中打造的一個強大的多智能體強化學習 AI——TiKick。
在多項國際賽事中奪得冠軍則是指,TiKick 在單智能體控制和多智能體控制上均取得了 SOTA 性能,并且還是首次實作同時操控十個球員完成整個足球遊戲。
這支強大的 AI 團隊是如何訓練出來的呢?
從單智能體政策中進化出的多智能體足球 AI
在此之前,先簡單了解一下訓練所用的強化學習環境,也就是這個足球遊戲:Google Research Football(GRF)。
它由谷歌于 2019 年釋出,提供基于實體的 3D 足球模拟,支援所有主要的比賽規則,由智能體操控其中的一名或多名足球運動員與另一方内置 AI 對戰。
在由三千步組成的上下半場比賽中,智能體需要不斷決策出移動、傳球、射門、盤球、鏟球、沖刺等 19 個動作完成進球。
在這樣的足球遊戲環境中進行強化學習難度有二:
- 一是因為多智能體環境,也就是一共 10 名球員(不含守門員)可供操作,算法需要在如此巨大的動作空間中搜尋出合适的動作組合;
- 二是大家都知道足球比賽中一場進球數極少,算法是以很難頻繁獲得來自環境的獎勵,訓練難度也就大幅增大。
而清華大學此次的目标是控制多名球員完成比賽。
他們先從 Kaggle 在 2020 年舉辦的 GRF 世界錦标賽中,觀摩了最終奪得冠軍的 WeKick 團隊數萬場的自我對弈資料,使用離線強化學習方法從中學習。
這場錦标賽隻需控制場中的一名球員進行對戰。
如何從單智能體資料集學習出多智能體政策呢?
直接學習 WeKick 中的單智能體操作并複制到每個球員身上顯然不可取,因為這樣大家都隻會自顧自地去搶球往球門沖,根本就不會有團隊配合。
又沒有後場非活躍球員動作的資料,那怎麼辦?
他們在動作集内添加了第二十個動作:build-in,并賦予所有非活躍球員此标簽 (比賽中若選用 build-in 作為球員的動作,球員會根據内置規則采取行動)。
接着采用多智能體行為克隆 (MABC) 算法訓練模型。
對于離線強化學習來說,最核心的思想是找出資料中品質較高的動作,并加強對這些動作的學習。
是以需在計算目标函數時賦予每個标簽不同的權重,防止球員傾向于隻采用某個動作作為行動。
這裡的權重配置設定有兩點考慮:
- 一是從資料集中挑選出進球數較多的比賽、隻利用這些高品質的資料來訓練,由于獎勵較為密集,模型能夠加速收斂并提高性能。
- 二是訓練出 Critic 網絡給所有動作打分,并利用其結果計算出優勢函數,然後給予優勢函數值大的動作較高的權重,反之給予較低的權重。
此處為了避免梯度爆炸與消失,對優勢函數做出了适當的裁剪。
最終的分布式訓練架構由一個 Learner 與多個 Worker 構成。
其中 Learner 負責學習并更新政策,而 Worker 負責搜集資料,它們通過 gRPC 進行資料、網絡參數的交換與共享。
Worker 可以利用多程序的方式同時與多個遊戲環境進行互動,或是通過 I/O 同步讀取離線資料。
這種并行化的執行方式,也就大幅提升了資料搜集的速度,進而提升訓練速度 (5 小時就能達到别的分布式訓練算法兩天才能達到的同等性能)。
另外,通過子產品化設計,該架構還能在不修改任何代碼的情況下,一鍵切換單節點調試模式和多節點分布式訓練模式,大大降低算法實作和訓練的難度。
94.4% 的獲勝率和場均 3 分的淨勝分
在多智能體(GRF)遊戲上的不同算法比較結果中,TiKick 的最終算法(+AW)以最高的獲勝率(94.4%)和最大的目标差異達到了最佳性能。
TrueSkill(機器學習中競技類遊戲的排名系統)得分也是第一。
TiKick 與内置 AI 的對戰分别達到了 94.4% 的勝率和場均 3 分的淨勝分。
将 TiKick 與 GRF 學術場景中的基線算法進行橫向比較後發現,TiKick 在所有場景下都達到了最佳性能和最低的樣本複雜度,且差距明顯。
與其中的基線 MAPPO 相比還發現,在五個場景當中的四個場景都隻需 100 萬步就能達到最高分數。
作者介紹
一作黃世宇,清華大學博士生,研究方向為計算機視覺、強化學習和深度學習的交叉領域。曾在華為諾亞方舟實驗室、騰訊 AI、卡内基梅隆大學和商湯工作。
共同一作也是來自清華大學的陳文澤。
此外,作者還包括來自國防科技大學的 Longfei Zhang、騰訊 AI 實驗室的 Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清華大學的 Chen Ting。
通訊作者為清華大學的朱軍教授。
論文位址:
https://arxiv.org/abs/2110.04507
項目位址:
https://github.com/TARTRL/TiKick
參考連結:
https://zhuanlan.zhihu.com/p/421572915