最近AI圈發生了兩件大事。第一件是DeepMind、Facebook等AI巨頭對《星際争霸》研究興趣濃厚,公開釋出研究工具和資料;第二件是Open AI的機器人在Dota2比賽中戰勝了人類頂級職業玩家。至此,繼橫掃人類國際象棋大師和圍棋大師後,人工智能如今又将風靡全球的電子競技遊戲Dota2攻陷。可以預見,在很短的将來,萬衆矚目的《王者榮耀》頂級玩家,也會被人工智能打敗。
DeepMind等公司已經在《星際争霸》上研究了一段時間,但目前為止,根據前不久剛剛釋出的最新進展,相關研究還沒有取得重大突破。
倒是Open AI公司打敗DOTA人類頂級職業玩家,率先取得令人興奮的成就,一躍成為AI圈中的熱點。
回顧賽事,Open AI公司的機器人表現可以說是非常“強悍”,出手“快”、“準”、“狠”,手法娴熟,不僅會卡兵、補刀,還會取消掉技能擡手,而且具有強烈的攻擊性,連續兩局狂虐Dendi。
OpenAI的工程師表示,他們對機器人訓練了2周,就獲得了足以擊敗全球最佳Dota 2專業玩家的能力。伊隆·馬斯克看了戰況之後,抑制不住内心激動,在推特上公開宣稱:OpenAI搞出了史上首個擊敗電子競技頂級玩家的人工智能。這比搞國際象棋和圍棋什麼的複雜多了。
這次打敗DOTA人類選手比賽的難度究竟有多大?
雖然OpenAI公司沒有公布更多細節,不過,我們可以根據已有的資訊進行客觀評價。
1、屬于多人線上戰術競技遊戲(MOBA)中的單人模式。
這次是在中路進行影魔的SOLO對決,屬于1V1遭遇戰模式,需要戰争迷霧隐藏的資訊較少,與5V5模式在難度上還有較大差距。正常的DOTA 2遊戲中,2支對抗隊伍各由5名玩家組成,遊戲過程中需要随時調整作戰政策、需要大量的團隊溝通和協調,任意一名玩家都可以随時根據戰況,召喚其他隊友組織支援、抓捕或埋伏,突發情況多、對抗較為激烈,互相配合和節奏的把握非常重要,比賽時長通常要45分鐘。
在1v1模式中,擊敗對手主要靠機械技能和短期政策,并不涉及長期規劃和協調,而後者才是對目前AI技術來說最具挑戰性的部分。是以,OpenAI計劃在明年推出可以進行5V5協同作戰的更高智能的機器人。
2、相比圍棋,DOTA對戰中機器人的反應時間占據優勢。
AlphaGo和柯潔對戰時,雙方時間都是3小時,時間的增加,有利于人類棋手發揮。實際上,時間長短對于AlphaGo來說并不重要,因為它每一步棋的決策時間最多隻需10秒。這次DOTA對戰則不同,人類選手直面機器人,需要幾乎在一瞬間大緻估計出與對手之間的距離,是否進行攻擊、是否值得背水一戰,再通過神經系統發出信号控制雙手操縱滑鼠和鍵盤,這一連串的動作需要耗費大量時間。OpenAI機器人可以獲得精準的對手位置、技能冷卻時間資訊,并迅速計算出準确的攻擊時間節點,確定将對手一擊緻命。仔細觀察對戰過程,你可以看到,機器人有幾次攻擊都是在最大距離上展開,最後在短短10分鐘赢得對戰。
為何馬斯克對機器人的這次成功這麼看重?
“自我對局”(Self-play)的理念是OpenAI研發的關鍵。OpenAI的機器人整個學習過程随機開始,并且通過和自己對抗進行學習。OpenAI的CTO Greg Brockman介紹,技術人員通過神經網絡對機器人進行了數千次的自我對局進行訓練。自我對局的參與人選擇針對其對手的平均行為的最佳反應。是以,OpenAI研發的機器人,可以從完全的随機狀态一步步發展到如今的世界頂級水準。雖然這并不是最新最前沿的理論,但令人的震驚的是,機器人學會了人類玩家已經在使用的技術,并吸收為自己所用,并用來打敗人類玩家。
谷歌公司開發的AlphaGo在打敗了人類頂級選手李世石、柯潔之後,宣布永久退出圍棋比賽。同樣,OpenAI公司開發這樣一個機器人,并不是為了打敗DOTA人類職業玩家這麼簡單。
自主學習遊戲規則,通過自我對局進行訓練,能夠掌握複雜視訊遊戲的機器人可以有其他更廣闊的用途。最直接的例子是,圍棋選手已經開始學習AlphaGo機器人的下棋方式。同樣,一些DOTA遊戲玩家開始利用OpenAI公司機器人進行日常訓練。智能機器人可以為遊戲娛樂産業提供更多價值,遊戲娛樂也會助推人工智能技術快速發展。
AI公司的目标:建立更加通用的智能系統
顯然,OpenAI公司的雄心不止于此,“我們所建立的是一個普遍的學習系統,盡管它在很多方面仍然受到限制,但它仍然能擊敗最優秀的人類專家,”Brockman說,“這是朝着向建立更通用的系統邁出的關鍵一步,它可以學習真正複雜的、重要的現實世界裡的任務,比如做一名外科醫生。”
不僅在電子競技、醫療領域,OpenAI公司的這項技術在家政服務機器人領域和軍用機器人領域可能會發揮更大的價值。
最近人民網報道,有網友買掃地機器人後淚崩,仿佛買了一個智障,肆意展示各種蠢萌技能:掃地2年了,每天都會在在盥洗室地攤上被卡住,在沙發拐角上被卡住,在各種意想不到的角度上被卡住,和各種桌子腿過不去。目前在售的這類掃地機器人有一個救命技能,被卡住了就發求救信号,讓人把它搬出來,感覺它的主業不是打掃衛生,而是負責搞笑賣萌。
可以預見,采用“自我對局”(Self-play)理念來提升掃地機器人的學習能力,可以在随機探索整個室内環境的過程中,通過和自己、和家庭環境進行對抗學習,不斷提升對整體環境的感覺應對能力,最終達到人類保潔水準。進行更大強度的訓練,甚至可以成為一個頂級的家庭衛生保潔員,避免因為被卡住頻頻向人類求助的窘迫,成為真正意義上的智能家居産品。
在軍用領域,“自我對局”(Self-play)的設計理念同樣大有可為。2015年9月,美國海軍陸戰隊開始測試谷歌旗下機器人公司波士頓動力開發出的新一代機械狗Spot,而這款機械狗的“前輩”BigDog早就在2014年在夏威夷投入使用了。
這隻機器狗隻是被看成是可以執行偵察和搜尋任務軍犬的替代品。準确來說,這不僅僅是一條軍犬,進行深度改造後,可以變為一個可以在戰區和災區提供導航,執行搜尋任務,排查建築物危險,裝備上武器就可以作戰的超級士兵。
同樣是激烈的對戰環境,在DOTA2中可以迅速準确評估戰況、動作靈活、攻擊性強的OpenAI公司機器人給我們展示了其強大的學習、超越能力,借鑒和改進機器人背後的通用學習系統,用來提升軍用機器人的學習能力、偵查作戰能力,對于儲存軍隊有生力量具有重要意義。
創辦特斯拉公司大獲成功的矽谷奇才伊隆·馬斯克,可能正是看中了這項技術蘊含的潛在巨大商業價值而興奮不已。
智能相對論(微信id:aixdlun):2個前人工智能行業管理咨詢老鳥+1個老媒體人組成的三人幫,深挖人工智能這口井,評出鹹淡,講出黑白,道出深淺。