夏乙 曉查 假裝發自 舊金山
量子位 出品 | 公衆号 QbitAI
2:0!
AI向Dota界卷土重來,一下子把Dota 2世界冠軍打得落花流水,在剛剛結束的三局兩勝比賽中輕松獲勝。
兩局比賽加在一起,人類隻推掉了AI兩座外塔。最慘烈的第二局,人類直到最後擊殺人頭數還是個位數。
這是OpenAI Five Finals。是AI與人類冠軍的終極決戰,也是它的期末大考。
對決的雙方,勝者是多次擊敗人類玩家的AI戰隊代表OpenAI Five;敗者是(理論上)人類最強Dota 2戰隊,去年的TI 8冠軍OG。
不要驚訝,畢竟,現在,距“Dota世界杯”TI8上接連輸給人類職業選手兩局,已過去231天。如果AI在這期間連續不斷地訓練,已經相當于苦練了231×180=41580年的電子競技。
和TI8上相比,AI展現出了更優秀的團戰操作,亂逛、空放大招之類的bug也沒再出現,進化非常明顯。
同時,OpenAI還展示了比碾壓、進化更重要的新能力:他們的AI不僅會和人類對抗,還能與人類合作組隊一起打Dota!原來的對手,已經可以做陪練了。
另外,如果你對今天的人類代表OG不滿意,OpenAI還開放了競技場,任何人都能注冊,組團挑戰AI或者體驗一把和AI做隊友的感覺。
這就是現實版的你行你上啊!
人類一敗塗地
OG究竟是怎樣輸給AI的呢?
看比賽之前,我們先來了解一下這次決戰的規則。
比賽在7.21版本上進行,OpenAI賽前宣布,規則限制和去年8月TI8上一樣,然而今天比賽開始時展示的規則還是略有不同:
英雄池包含17個英雄,不知道從之前的18個之中去掉了哪個:斧王、水晶室女、死亡先知、撼地神牛、矮人直升機、巫妖、惡魔巫師、死靈法師、痛苦女王、剃刀、隐刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫。
沒有召喚機關和幻象。
之前對聖劍、魔瓶、掃描的限制都沒有提到。
好了,正片時間到:一起來看今天的決戰。
雙方三局兩勝。
第一局
AI(天輝):火槍、飛機、冰女、死亡先知、斯溫
人類(夜魇):小牛、巫醫、毒龍、隐刺、影魔
選完陣容,OpenAI Five認為自己有67.6%的勝率。
剛剛開局,OpenAI Five拿下一血,而人類軍團也很快殺掉了AI方的冰女。之後,雙方前期在人頭數上一直不相上下。AI一直在經濟上保持總體領先,但最富有的英雄,卻一直是人類的大哥影魔。
這也能看出雙方政策上的明顯差別:OG是3核心+2輔助的傳統人類打法,而AI的5個英雄經濟配置設定相對平均,比較“大鍋飯”。
經過幾番激烈的推進和團戰,遊戲進行到19分鐘左右,AI對自身勝率的預測已經超過了90%。自信心爆棚的AI一鼓作氣攻上了人類的高地。
OG緊接着選擇了分路推進,幾位解說推測,這是為了盡可能分散AI,防止它們抱團推進,然而并沒有奏效太長時間。
然而,堅持到38分鐘,人類方的小牛剛剛買活,AI的最後一波總攻已經推掉了人類的基地。
OpenAI Five赢下第一局。現場,也是一片掌聲。
這場比賽中,AI展現了清奇的思路:出門裝就選擇兩個大藥,後續的裝備也更傾向于買補給品,而不是提高自身屬性。
另外,我們前邊提到的“大鍋飯”政策,以及在比賽前期就頻繁買活,都和人類職業選手的習慣大不相同。
第二局
AI(天輝):冰女、飛機、斯溫、巫醫、毒龍
人類(夜魇):火槍、小牛、死亡先知、小魚人、萊恩
選完英雄,AI對自身勝率的預測是60.8%,略低于上一局的陣容。
比賽前兩分鐘,雙方都在一片祥和中各自帶線,然而沒想到,人類中單Topson很快就送出了一血。
之後,人類代表們以驚人的速度潰敗。
5分鐘時,AI的信心就已經大幅上升,預測自己有80%的勝率;7分鐘,AI推掉了上路一塔;10分鐘,AI就已經領先人類4000金币,多推了兩座塔,還為自己預估了95%的勝率。
11分鐘,AI已經攻上了OG的高地。
僅僅21分鐘,OG的基地被推掉,OpenAI Five輕松拿下第二局。直到比賽結束,OG拿下人頭還是個位數,被AI打成了46:6。
雖然這一局赢得異常輕松,不過對局過程中還是能看出AI在細節上有一些不足。比如說面對在複雜樹林中繞來繞去的人類,AI就無能為力。今天的比賽中,Ceb就靠繞樹林救了自己一命。
對于0:2輸給AI這個結局,OG是不太服氣的。戰隊創始人“大爹”N0tail在賽後采訪中說,讓他打10局,他們有把握找到戰勝AI的辦法;打上50局,就能一直穩赢了。
網友們也不太買賬。AI赢OG,我不服!
大家認為,你們OG壓根就沒好好玩!
在第一局中,OpenAI前期有略微的劣勢,然後開始發力,到第二局幾乎就是一直碾壓OG。比賽前後期落差太大,不像是職業Dota選手的水準。
很多網友看完比賽後表達了對Ti8冠軍OG的參賽态度不滿:簡直看不下,”我行我上啊”!
他們認為OG和AI的比賽就是在瞎打,打不過AI就送人頭、不打錢,賣裝備,毫無職業态度。
既然OG在亂打,自然也不能證明AI有多厲害。有人甚至直接開始嘲諷OpenAI:
他們應該感謝OG,是OG想盡辦法讓弱智的AI看起來不那麼弱智了。
或許是OpenAI早就想到了會有衆多網友不服,他們接下來所公布進展中,有一項就能解決這個“不服”的問題。
新能力:和人類組團打Dota
赢下兩局之後,AI并沒有休息。它開始展現自己的新能力:
做人類的隊友!
是的,現在,AI可以和人類配合着打Dota了。赢下OG之後,AI又開始與人類合作組隊,進入了下一局比賽。
這個環節的兩支隊伍,都由兩名人類主播和3隻AI組成,英雄選擇如下:
天輝:
飛機、斯溫、毒龍三個AI
冰女、死亡先知兩名人類
夜魇:
火槍、剃刀、萊恩 - 三個AI
小牛、痛苦女王 - 兩名人類
這場比賽的一血,就是人類與AI合作的結果:天輝方人類控制的冰女和身旁的AI隊友合作,殺死了對面人類控制的小牛。
而人類和AI的配合也并非一直完美。
Open的Psyho透露,OpenAI Five并沒有經曆過與人類合作打Dota的訓練,不過,由于AI的隊伍本來也是由5個神經網絡組成,它們之間也沒有特别的通信管道,與人類合作對它們來說應該也不成問題。
然而實際比賽中,人類的體驗可能并不好。人類不能向AI隊友喊話,沒有真正的溝通和配合。國外網友評價說,這種感覺就像線上遇到了大神,他卻不帶你飛。
你行你上!
秀完碾壓和合作,OpenAI公布了一個衆多網友期待已久大好消息:
你也能和AI打一局了!
“OG太菜,我行我上”也終于可以付諸實踐。
OpenAI開放一個專門的競技場,名叫OpenAI Five Arena。人類使用者在這個平台上既可以組團對抗AI,也可以和AI組隊比賽。
遊戲将于太平洋時間4月18日下午6點(中原標準時間4月19日上午9點)正式上線,4月21日結束。現在,使用者已經可以到這個平台注冊了。
位址:https://arena.openai.com/
目測等到遊戲上線後,還會有排行榜實時更新出來。
兩年快速進化
到今天為止,OpenAI的Dota AI誕生兩年,已經幾次震驚世人。
它最早誕生于2017年3月,同年8月在TI7邀請賽最後第一次一鳴驚人。當時,它1V1對戰人類頂尖高手,讓NAVI戰隊的烏克蘭職業DOTA2選手Dendi幾分鐘就打出了GG。
很多人類表示不服,隻會用影魔中單1V1當然難以服衆。
然而AI進化十分迅速。
到2018年6月底,AI就掌握了5V5技能。OpenAI為它起了個新名字:OpenAI Five。
之後僅僅過了一個多月,OpenAI Five就在8月6日擊敗了超凡5級别(天梯MMR積分6500以上)的人類半職業戰隊。
再過半個月,就是它上一次亮相了。
那是在231天前的TI8上,AI所玩的Dota已經和今天一樣複雜,然而它的表現并不亮眼。
當時,AI接連兩天先後對戰人類職業戰隊paiN Gaming和”中國退役大神隊”,都是一敗塗地,也暴露了不少缺陷:
比如說,當時的OpenAI Five隊伍之中沒有角色配置設定,無論是1号位還是輔助,打法都差不多;又比如,它總是對自己的勝率預測過高,還會胡亂插眼空放大招,而且一遇到劣勢,就會表現得“手足無措”。
然而,比賽技術後仍有人類“帶路黨”堅信:“這可能是職業隊唯一一次赢ai了。”
現在,231天過去了,我們看到AI在很多方面都有巨大進步。
最明顯的當然要數它的新能力:與人類組隊打比賽。
除此之外,AI這次也沒有出現TI8版本的那些壞毛病,比如亂逛、空放大招等等,對勝率的估算也相對合理。
但是胡亂插眼這個毛病,在今天的比賽中依然明顯。看來經過幾萬年修煉,AI依然對插眼毫無興趣。
去年TI8結束後,OpenAI研究員David Farhi曾經向量子位透露過他們的推測:通過強化學習自我對局訓練出來的AI,其實并不會買眼,買眼的行為是人類通過寫死強制AI完成的。而亂插眼,很可能是因為AI想要把它随便丢在什麼地方,争取一個空白的物品欄。
5個LSTM,修煉45000年
AI的快速進化,其實是刻苦訓練的結果,也就是不斷的自我對局。
OpenAI CTO Greg Brockman賽前說,他們的AI相當于已經練習了45000年Dota。
OpenAI之前也說過,AI每天的訓練量相當于人類打180年遊戲;之前輸給過OpenAI的MoonMeanderated則說,AI一天要打200萬場比賽。
這樣的訓練量,遠非人類能及,當然對計算力的需求也大到吓人:它們的日常訓練,需要256塊P100 GPU和12.8萬個CPU核心。
這支“飯量驚人”的OpenAI Five戰隊,包含5個智能體(agent),每一個都是包含1024個節點的單層LSTM,能夠通過V社(Valve)的Bot API觀察目前遊戲狀态,控制英雄去移動、攻擊、施放技能、使用道具。
它們能夠觀察到的資訊和人類差不多,包括自身、隊友和敵人的狀況,比如位置、血量、攻擊力、護甲、攜帶物品、能力等等。
這些資訊,對于智能體來說是一個包含20000數值的清單,而它判斷之後發出的行動指令,是8個值的清單。
如果要以一種拟人的方式描述,AI“眼中”的遊戲大概是這個樣子:
選手們的訓練,使用的是擴充版的近端政策優化(PPO)方法,這也是OpenAI現在預設的強化學習訓練方法。這些智能體的目标是最大化未來獎勵的指數衰減和。
既然是5個智能體,當然還要讓它們能作為一支隊伍互相配合。為此,OpenAI設計了一個“團隊精神”超參數來統一控制。這個超參數的範圍在0到1之間,決定了選手對與自身獎勵函數和隊友平均獎勵函數的關注程度配置設定。
本期人類代表
最後,為不太熟悉OG的朋友簡單介紹一下今天的人類代表。
OG,就是去年TI8上3:2擊敗PSG.LGD,拿下冠軍的那支隊伍,現在的陣容和去年奪冠時一樣:
一二号位Ana(Anathan Pham)
Ana以刷錢能力著稱,甚至有“世界第一打野”之稱,而對線能力是他的短闆。這位澳洲華裔選手,去年TI8之後休息了一段時間,今年3月剛剛正式歸隊。
一二号位Topson(Topias Taavitsainen)
他是2018年剛剛加入OG的新人,曾經在歐服天梯上排名第一,可謂“路人王”。他迅速從毫無大賽經驗的業餘玩家,成為TI8冠軍。是以,他在衆多職業選手中顯得“思路清奇”,卻也常被批評“發揮不穩定”。
三号位Ceb(Sébastien Debs)
Ceb,又叫7ckngMad,原本是OG的教練,2018年3月,當時的中單Resolut1on離隊後,他先是入隊做替補,又正式成為戰隊裡的職業選手。
四号位JerAx(Jesse Vainikka)
2016年,JerAx從Liquid轉入OG,在現在的OG陣容裡算是一名老将。他曾被稱為“歐洲土貓王”,也是一名非常擅長掌控遊戲節奏、帶起前期優勢的輔助。
五号位N0tail(Johan Sundstein)
N0tail也被國内網友稱為“大爹”,是OG創始人,去年剛剛從1号位轉到5号位。
最後,量子位想說,如果你也對上面5名人類代表不滿意,趕快去OpenAI Five Arena注冊吧!
— 完 —