AI博弈論：DeepMind讓智能體在非對稱博弈中找納什均衡博弈與納什均衡歌劇還是電影？

本文來自AI新媒體量子位（QbitAI）

随着人工智能系統在現實世界中扮演越來越重要的角色，了解不同的系統如何互相作用至關重要。

剛剛，DeepMind發表了一篇名為Symmetric Decomposition of Asymmetric Games的論文。在這篇論文中，DeepMind研究人員采用了博弈論的分支試圖這個問題。

研究人員重點觀察了在德州撲克，棋盤遊戲蘇格蘭特警等非對稱博弈中，兩個智能體會有怎樣的行為和表現。

用這種新方法，智能體能簡單快速地在複雜的非對稱博弈裡找到納什均衡。

博弈論屬于數學的一個分支，用于分析競争環境下決策者的政策。

這套理論适用于人類，動物，以及超過一個AI時的多AI環境。比如說家裡多個機器人同時打掃房間。

非對稱資訊博弈模拟了真實世界的場景，就像拍賣時買家和賣家的心态和動機不同。我們得到的結果給了我們獨道的見解，以及極其簡潔的方式分析他們。

非對稱博弈的特點是每方玩家都有不同的政策、目标和獎勵。比如說博弈論研究裡最常見的協調博弈，性别之戰。

一般來說，多AI系統的進化動态過程是用簡單的對稱博弈來分析，比如說經典的囚徒困境，兩方玩家都可以采取同樣的行動。即使這些博弈能夠為多AI系統提供有效的洞見，告訴我們如何操作所有玩家才能獲得最優結果（這就是納什均衡），但他們并不能模拟出所有的情況。

DeepMind的新的方法，能簡單快速地在複雜的非對稱博弈裡找到納什均衡。

雖然目前這套理論的重點還在如何應用在多個AI系統的互動中，但研究人員相信這個結論也可以用于經濟、進化生物學、經驗博弈論中。

舉個例子吧。

兩名玩家需要決定晚上是去看歌劇還是電影，不巧的是，其中一名偏好歌劇而另一名偏好電影。這是場不對稱的遊戲，雖然兩名玩家可以任意選擇，但是根據玩家的喜好，每個玩家得到獎勵是不同的。

但是，為了維持他們的友誼，或者我們稱為一種平衡，雙方需要選擇相同的活動，是以單獨行動的回報為零。

這個遊戲有三個平衡：(i)雙方都去看歌劇，(ii)雙方去看電影，(iii)還有一個混合選項，每個玩家在五分之三的時間裡選擇他們喜歡的選項。

這個“不穩定的”的最後一個選項，就是用了将不對稱遊戲簡化或分解成它的對稱對等體的方法。

我們可以将這種遊戲的本質想象成，每個玩家的獎勵分數表是一個獨立對稱的雙玩家遊戲，它的平衡點與原始的不對稱遊戲一緻。

在下面這張圖中，納什均衡是通過兩個對等點得到的，幫助我們快速确定不對稱博弈中的最優政策(a)。反過來說，利用不對稱博弈來确定對稱對等點的均衡。

△ 紅點代表納什均衡。對于不對稱的遊戲(a)，納什均衡可以很容易地從(b)和(c)兩張對稱圖中得到。上述圖中，x、y軸分别為玩家1、2選擇歌劇的機率

好消息是，這種方法也适用于其他遊戲，比如Leduc撲克等。這些方法應用了一個簡單的數學原理，進而快速直接分析不對稱遊戲。我們希望它也能幫助我們了解各種動态系統，包括多代理環境。

最後，附論文位址：

https://www.nature.com/articles/s41598-018-19194-4

本文作者：Root 林鱗

原文釋出時間：2018-01-18

繼續閱讀