ACL2016最佳論文：通過互動學習語言遊戲

聯合編譯：章敏，高斐，陳圳

我們介紹了一種與建構适應性的自然語言接口有關的新型語言學習設定。它受到維特根斯坦語言遊戲（wittgenstein’s language games）的啟發：一個人希望完成某種任務（例如：搭建某種積木結構），但是隻能與計算機互動，讓計算機完成實際操作（例如：移動所有的紅色積木）。計算機最初對語言一無所知，是以必須通過互動從零開始學習，同時人類适當調整計算機的性能。我們創造了一種叫做 shrdlurn 的積木遊戲，并收集了 100 位玩家與計算機的互動。首先，我們分析了人類的政策，發現使用組合型和避免同質化與任務表現呈正相關。其次，我們比較了計算機政策，發現在語義分析模型基礎上的建構語用學（pragmatics）模型能為更多政策玩家加速學習過程。

wittgenstein說一段著名的話：語言源于它使用的意義，并且它還介紹了語言遊戲來說明語言流動性和目的性的概念。他描述了搭建者b和助手a如何使用原始的語言（由“塊”，“柱”，“闆”，“梁”四大塊組成）成功的進行交流，将方塊從a移動到b。這僅僅是其中一個語言；還有很多語言同樣可以完成合作目标。

本文在學習設定中探讨和實施了語言遊戲的想法，我們稱之為通過語言遊戲進行互動學習（interactive learning through language games/illg）,在illg設定中，兩個參與者最初說不同的語言，但仍然需要合作完成一個目标。具體來說，我們創造了一個叫作shrdlurn的遊戲，緻敬winograd的開創性工作。如圖1所示，目标是将初始狀态轉變成目标狀态，但人唯一可以進行的操作是進入一種話語。計算機根據其目前的模型，分析話語并産生可能的了解排名清單。人類通過清單從上至下移動，并選擇預定的狀态，與此同時推進塊的狀态，并向計算機提供回報。人類和電腦都希望用盡可能少的移動達到目标狀态（目标狀态隻有人類知道）。電腦要成功的話，它就必須在遊戲的過程中迅速學習人類的語言，以便人類可以高效的完成目标。相反，人類也必須容納電腦，至少部分了解它可以做什麼，不能做什麼。

我們在illg中将電腦模拟成一個語義分析器（3節），它将自然語言的話語映射（例如，“删除紅”）成邏輯形式（例如，删除（紅色））。語義分析器沒有種子詞典和注釋邏輯形式，是以它隻是産生許多候選的邏輯形式。基于人類的回報，它在對應簡單的詞彙特征參數上進行線上梯度更新。

在過程中，我們發現：雖然電腦最終可以學會語言，但它的學習速度和期望值差很多。例如在學習将删除紅轉換成邏輯形式删除（紅色）後，電腦會将删除青色也轉換成邏輯形式删除（紅色），而人類可能會使用互斥性排除該假設。是以，我們介紹一個語用學（pragmatics）模型，在模型中計算機非常了解人類的思維。受到前面語用學（pragmatics）工作的啟發。為了模型适合illg設定，我們介紹了一種新的線上學習算法。憑經驗，我們證明了相比于10個最成功的遊戲者時最好的非-語用學模型（第5.3節），我們的語用模型将線上的準确性提高了8%。

illg設定的特别之處是學習的實時性，其中人類也同樣學習并适應電腦。結構人類可以教計算機任何語言—英語，阿拉伯語，波蘭，一個自定義的程式設計，但優秀的玩家會選擇使用讓計算機可以更快學會的語言。在交際用語理論中，人類包容計算機。使用amazon mechanical turk，我們從shrdlurn的100款遊戲中收集并分析了大概10k的語句。結果顯示成功的玩家趨向于使用具有一緻詞彙和文法的組合語句，這符合電腦的感性偏見（5.2節）。此外，通過這種互動，許多玩家通過變得更加一緻，更精确，更簡潔以适應計算機。

在實用方面，自然語言系統經常被訓練和部署，使用者在生活中必須忍受他們的不完美。我們相信對于建立自适應和可定制的系統，學習illg設定是不可或缺的，特别是對與資源貧乏的語言和新的領域（從接近零開始是不可避免的）。

我們現在正式的描述語言遊戲互動學習（illg）的設定。有兩個遊戲玩家——人類和電腦。遊戲通過固定數量的級别進行。在每一個級别中，兩個玩家都被提供了初始狀态s∈γ，但隻有人類玩家知道最終狀态t∈γ（例如。在shrdlurn中，γ是塊的所有配置集）。人類發送一個話語x（例如，删除紅色）到電腦。随後電腦建立可能候選動作的排名清單z =[z1, . . . , zk] ⊆ z （例如, remove(with(red))，add(with(orange))，等），其中z是所有可能的行為。對于每一個zi∈z，都計算yi=[zi]s，狀态s上執行行動的繼承狀态。計算機傳回給人類繼承狀态的有序清單y = [ y1，。..yk ]。然後人類從清單y中選擇yi（如果i=1則計算正确）。随後狀态更新為s=yi。當s = t是該級别結束，且玩家前進到下一個級别。

由于隻有人類知道目标狀态t且隻有電腦可以進行運動，是以要成功的進行遊戲，人類就必須在語句x中程式設計希望的行動。然而，我們假設兩個玩家沒有共享的語言，使用人類必須挑選語言并教會電腦這種語言。作為一個額外的曲折，人類不知道确切的行動z（雖然他們對計算機的功能可能有一些概念）。最後，人類隻看到計算機的行動的結果，而不是實際的邏輯行動本身。

我們期望遊戲按如下程式進行：在一開始，電腦不懂人類的意思并執行任意的行動。當電腦獲得回報并且學習後，他們兩個應該變得更精通于溝通，進而玩遊戲。我們的關鍵設計原則是：要實作良好的遊戲性能，玩家需要語言學習。

shrdlurn.我們現在講述一下遊戲shrdlurn的具體細節。每一個狀态s∈γ由排列在一行的彩色塊的堆棧組成（圖1），其中每一個堆棧都是是塊的垂直列。行動z通過表1中的文法成分進行定義。每一個行動既不會從堆棧集增加，也不會移除，并通過各種設定操作計算堆棧和選擇顔色。例如，行動删除（最左邊（與（紅色）））即删從最左邊的堆棧移除頂端是紅色的塊。動作的組合給予了計算機不同尋常的能力。當然，人類必須教一種語言來利用這些能力，盡管不完全知道能力的确切程度。實際遊戲按照課程進行，其中早期的級别隻需要更簡單的行動（有着更少的謂語）。

我們用這種方法描述shrdlurn有着幾個原因。第一，視覺塊操作直覺并且容易衆包，而且它可以作為一個真正人們會玩的有趣的遊戲。第二，行動空間被設計成組合，反映自然語言的結構。第三很多的行動z會導緻相同的繼承狀态y=[|z|]s,例如，在一些狀态s中，“左邊的堆棧”可能與“紅色塊的堆棧”一緻，是以行動涉及其中任何一個都會導緻同樣的結果。是以人類隻要指出正确的y，計算機就必須應對這種間接監管（反映了真實語言學習）。

追随zettlemoyer和collins以及最近語義分析的相關工作，我們使用了一個邏輯形式的對數線性模型（動作）z∈z給定一個話語x：

外延y（繼承狀态）是由狀态s上擴充z獲得的；正式來說，y=[|z|]s

特征.我們的特征是在邏輯形式側結合n-grams（包括skip-grams）和tree-gram。具體而言，在話語側（如在橙色疊紅色），我們使用一進制（'stack '，∗，∗），二進制（‘紅'，'on'，∗），trigrams（‘紅’，’on’，“橙色”），和skip-trigrams（'stack '，∗，'on'）。在邏輯形式上，特征對應于邏輯中的謂詞形式和他們的論點。對于每個謂詞h，讓h.i是h的第i個論點。然後，我們為謂詞h定義了tree-gram的特點ψ（h，d）和深度d = 0,1,2,3遞歸如下：

所有功能集合都隻是話語特征與邏輯形式特征的交叉産品。例如

請注意，相比于大多數傳統的語義分析工作，我們不模拟一個明确的對齊方式或導出連接配接話語成分和邏輯形式，而是遵循一個寬松的語義模型類似于（pasupat和liang）。因為派生的數量遠遠大于邏輯形式的數量，當我們從注釋的邏輯形式或有一個種子詞彙學習時，模組化明确的路線或推導是唯一可行的計算。在illg設定中，沒有一個是可用的。

生成/解析.我們使用光束搜尋由最小到最大生成邏輯形式。具體而言，對于每個大小n = 1，.....8，我們可以根據表1中的文法規則，結合較小規模的邏輯形式建構一組大小為n的邏輯形式（有着确定的n謂詞）。對于每一個n，我們都根據目前模型θ保持100邏輯形式z（有着最高的分數 θtφ（x, z））。讓z成為最後光束的邏輯形式的集合，它包含所有n大小的邏輯形式。

表1：該形式文法為遊戲shrdlurn定義了組成動作空間z。用c表示顔色，用s表示集合。例如，shrdlurn中涉及的一個動作：‘add an orange block to all but the leftmsost brown block’add (not(leftmost(with brown))), orange)。除了最左邊棕色塊之外，将剩餘的其他塊設定為橙色。

在訓練過程中，由于删減了中等尺寸的邏輯形式，并不能保證z包含那些能夠獲得可觀察到的狀态y的邏輯形式。為了減少這種影響，我們列出一個圖表，以便于在初級水準僅需要使用一些簡單的動作，在轉向更大的組合型動作之前，為人們提供機會交給計算機一些基本的屬于，例如，顔色優先。

這一系統在最後的束搜尋運算中運作所有的邏輯形式，并按照任一邏輯形式産生的最大機率将最終的指令結果y進行排序。

學習當人們以一種特定指令y的形式提供回報資訊，系統将生成一下損失函數：

系統将運用adagrad優化算法進行單一梯度更新，(duchi et al., 2010)，這種優化算法保持perfeature 步長。

憑借在我們對第三部分描述的語義解析模型的經驗，我們發現機器具備很好的學習能力，然而，缺少人類學習者的推理能力。為了更好地闡釋這一觀點，我們不妨考慮一下本款遊戲的初級階段，在這一階段，在對數線性模型 pθ（z|x）中，θ=0。假定，人類發出“删除紅色”這一密碼，并将 zrm-red=remove（with（red））視為正确的邏輯形式。計算機将運用損失函數進行梯度更新，特征(“删除”, 删除)與(“删除”，紅色)。

其次，假定人們發出“删除青色”這一密碼。注意，zrm-red要比其他公式得分更高，由于（“删除”，紅色）這一特征将再次被用到。盡管這一行為得到統計學方面的佐證，其并不能滿足我們對一個聰明的語言學習者的本能期盼。此外，這一行為不能具體運用到我們的模型中，卻能夠運用到其他統計模型中，這些統計模型先前并未積累關于具體語言的額外知識，卻嘗試簡單地符合所得出的資料結果。盡管我們不能期盼計算機能夠神奇般地猜出“删除青色”為remove (with (cyan))，但其至少能夠降低zrm-ed的機率，因為另外一項密碼已經很好地且本能地解釋了remove red。

markman與wachtel(1998)已經對這一互相排斥的現象進行了研究。他們發現，在語言習得過程中，孩子對某一物體的第二個标簽持排斥态度，将其視為另一種全新的事物的标簽。

語用計算機為了正式建立互相排斥的模型，我們轉向一些可能的語用模型(golland et al., 2010; frank & goodman, 2012; smith et al., 2013; goodman & lassiter, 2015)，這些語用模型将把這些思想應用到實際操作中。将語言視為發生在說話者（人）與聽話者（計算機）之間的一場合作型遊戲，在遊戲過程中，聽話者對說話者的話語政策建立一種清晰無誤的模型，這一模型反過來又影響聽話者的思路，這是這些模型的核心思想。在規範的計算機語言中，我們将定為說話s（z|x）者的話語政策，将定為l（z|x）聽話者的話語政策。在交流過程中，說話者将字面語義解析模型及先前pθ（z|x）發出的話語 p（x）一起考慮在内，聽話者則考慮說話者s（z|x）及先前的話語p（z）：

在上述公式中，為一個β≧1超參數，使正态分布結果更為均勻(smith et al., 2013)。計算機将運用集合而l（z|x）非集合pθ為遊戲候選人排列等級。注意，我們運用的語用模型僅僅影響人類執行的動作等級排列結果，不會對模型的梯度更新産生影響。

表2 假定計算機看到一個執行個體“删除紅色”→zrm-ed，認為發出“删除青色”的指令。上方：字面聽話者pθzrm-ed錯誤地選擇zrm-ed而非zrm-cyan。中間：語用說話者s（x|z）基于zrm-cyan賦于“删除青色”更高的機率；下方：語用聽話者l（z|x）正确賦于zrm-red以較低機率，其中p（z）是一緻的。

我們僅用一個簡單的例子來分析語用模組化的作用。表2顯示，當聽話者僅領會到說話者的字面意思pθ（zix）時，他将賦予zrm-red高機率，以對指令“删除紅色”，“删除青色”做出反應。假定具有統一的，語用p（x）與β=1，說話者s（x|z）将與的每pθ一欄保持正常的一緻性。注意，倘若語用說話者試圖傳達 zrm-cyan這一資訊，他們極有可能會選擇“删除青色”。其次，假定恒定不變，語用聽話者l（z|x）将與pθ.1的每一行保持正常的一緻性。基于以上假設，将産生以下結果：在“删除青色”這一指令下，相比于，說zrm-red話者将更有可能選擇傳達zrm-cyan這一資訊。而這一結果方是語用模型的理想效果。

語用聽話者将說話設定為一個合作型的交流者，在交流過程中，盡可能實作成功的交流溝通。有一些說話者的行為，比如，避免使用同義詞（例如，非“删除項”），運用統一的語序（例如，非“紅色删除”），違反了遊戲理論。對于那些不遵循話語政策的說話者，我們的語用模型是不适用的，然而，當我們在遊戲中獲得更多的資料，僅領會字面意思的說話者pθ（z|x）的了解能力将不斷增強，由此，字面聽話者與語用聽話者兩者領會的話語含義将不謀而合。

算法1 能夠對語義解析參數θ 及總數c,q 實施更新的線上學習算法要求計算機進行語用推理。

在算法1中，語用聽話者l（z|x）可以被了解為優化的字面聽話者pθb-的一種重要形式，其重要性受到函數q（z）的削減，這一函數反映了字面聽話者更偏重于選擇領會哪一種話語含義。通過建立模型，算法1與(4)中提及的算法相同，除了這種算法在參照執行個體後，基于先前的參數θi使用正常化常數q。根據(5)，我們也需要p（z），這一函數通過在總數c（z）添加-α，計算p（z）的估計值。注意，當目前例子所對應的模型參數得到更新後，q（z）與c（z）才會得到更新。

最後，由于僅僅觀察指令結果y，而非邏輯形式z，計算結果将呈現稍許複雜性。基于模型c（z）←c（z）+pθ（z|x，||z||s=y），我們簡單地為每一個恒定的邏輯形式{z|||z||s=y}指定一個僞代碼。

與先前要求具體設定語用參照的工作相比，語用學自然而然地在illg中興起。我們認為這種形式的語用學在是學習過程中是極為重要的，然而，當我們擷取更多的資料後，其重要性将降低。的确，當我們擷取大量的資料，zs的可能性減少時，将會産生以下函數l（z|x）≈pθ（z|x）as∑xpθ（z|x）p（x）→p（z），此時β=1。然而，對于語義解析，倘若能夠得到大量的資料，我們将不會采用此種方法。尤其值得注意的是，在遊戲shrdlurn中，我們遠遠無法運用這種計算方法，我們的大多數口頭指令或邏輯形式都僅僅能夠被看到一次，語用模型的重要性依然不會削減。

資料使用亞馬遜土耳其圍棋機器人，我們付給100名勞工每人3美元，要求他們玩shrdlurn。從初始狀态s開始，我們總計有10223條口頭指令。當然，由于玩家可以不用執行任何動作，便可以操作任一指令，其中有8874條指令被标記為指令y,剩餘為未被标記的。在相同的設定條件下，100名玩家完成了整個遊戲。我們特意使每一位勞工從零開始，以便于在相同的控制條件下，研究政策的多樣性。

每一個遊戲均由50項任務組成，其中以每10項任務為一組，總計劃分為5個等級。基于開始狀态，每個等級都将設定一個結局。每完成一個遊戲，平均需要操作80個指令。運用亞馬遜土耳其圍棋機器人，完成這100個遊戲一共需要6個小時。根據亞馬遜土耳其圍棋機器人的時間追蹤器顯示，每一個遊戲将花費1個小時左右（這種計時方式并不适用于多任務玩家）。在遊戲控制操作中，提供給這些玩家最少量的指導。重要的是，為了避免給他們的語言運用帶來偏見，我們未提供執行個體指令。大約有20名玩家對遊戲操作感到迷惑，給我們提供大量無用的指令回報資訊。幸運的是，大部分玩家能夠了解如何進行設定，據其選擇性評論顯示，有些玩家甚至享受shrdlurn帶來的樂趣。

那是我在亞馬遜土耳其圍棋機器人遊戲中玩的最有趣的經曆了。

哇，這真是最棒的遊戲啦！

名額我們用卷軸數量來衡量每一位玩家在遊戲中的表現。在每一個執行個體中，卷軸數量是每一位玩家所執行動在y軸上顯示的位置。可以通過卷軸計數法來完成這一版本的shrdlurn。100名玩家中有22名未能教會一種實際語言，而是通過獲得卷軸數量來完成遊戲。我們稱其為垃圾玩家，他們通常輸入單個字母，随意字詞，資料或随機性的短語（如，“你好嗎”）。總體而言，這些垃圾玩家得獲得大量的卷軸數量：平均每一項指令得到21.6個卷軸，而對于那些非垃圾玩家，他們僅需要得到7.4個卷軸。

有些執行個體口頭指令可以在表3中找到。多數玩家使用英語，但是他們的語言習慣不同，例如使用定冠詞，複數形式，專有名詞順序。有5名玩家發明了自己的語言，這些新發明的語言比普通英語更為精确，更具連貫性。一名玩家使用波蘭語，另一名玩家使用波蘭語表示法（表3下方）。

表3：示例語句，括号内是每一個玩家所用的平均步驟。遊戲的成功是通過步驟數來決定的，一般成功玩家所用的步驟數會更少。（1）排名前20的玩家更傾向于使用連續，簡潔的語言，其語義與人類的邏輯語言十分的相似。（2）排名中等的玩家所使用的語言更加冗長或是不連續，這與人類的語言模式會稍有不同。（3）失敗的原因各不相同。左邊：；中間：使用坐标系統或是連詞；右邊：開始十分地不解，所使用的語言也與我們的邏輯語言相差甚遠。

總的來說，我們發現玩家在使用連續，簡潔且不重複的語言後會更加适應illg遊戲，盡管在一開始是使用标準英語。舉個例子，一些玩家會随着時間的推移語言會變得更加連續（例如，從使用“remove”和“discard”到隻使用“remove”）。就冗長方面而言，省略虛詞是遊戲中常見的一種适應過程。在以下從不同玩家中選取的例子中，我們會把早期出現的句子和後期出現相似的句子進行比較：‘remove the red ones’變成了‘remove red’；‘add brown on top of red’變成了‘add orange on red’;‘add red blocks to all red blocks’變成了‘add red to red’；‘dark red’變成了‘red’；玩家曾在開始的前20句話中會使用‘the’，但是在後75句中從未出現過‘the’。

玩家在精确度方面也相差較大，有的是過分精确（例如，‘remove the orange cube at the left’，‘remove red blocks from top row’），有的是不夠精确或是需要閱讀前後文（例如，‘change colors’，‘add one blue’，‘build more blocus’，‘move the blocks fool’，‘add two red cubes’）。我們發現随着時間的推移，玩家能更好地了解illg也會變得更加的精确。

大多數的玩家所使用的語言實際上并未與表1中的邏輯語言完全比對，計算是表現較好的玩家也是如此。特别的是，數字會經常使用。盡管一些概念在積木世界中也通用，但是大多數是不一樣的（例如，‘first block’的意思是‘leftmost’）。更加具體的說，在排名前10的玩家中，7名使用一些數字形式，僅有3名使用的語言與我們的邏輯語言完全比對。有些玩家所使用的語言與人類的邏輯語言并不比對，但是卻表現地更好。其中之一的可能性解釋就是所需的動作會受邏輯語言的制約或是所采取的行動會有意想不到的解釋。例如隻要玩家僅僅隻提到最左或是最右，計算機能準确地解讀數字位置的引用。是以如果玩家說‘rem blk pos 4’和‘rem blk pos 1’，計算機就能準确地解讀出二進制文法（‘pos’‘1’）為最左。另一方面玩家不采取行動或是坐标系統（例如，‘row two column two’），而僅僅是描述想要的狀态（例如，‘red orange red’，‘246’）會表現地很差。盡管玩家不必使用與人類邏輯語言完全比對的語言，但是部分相似肯定會有不小幫助。

組合性。據我們所知，所有的玩家都使用了同一種組合語言；沒有人會使用與動作無關的語言。有趣的是，3個玩家并未在單詞之間空格。因為我們認為單語素的單詞都是通過空格分離的，是以必須進行多次滾動。（例如，14.15所說的‘orangeonorangerightmost’）

我們現在對計算機的學習速度做出了品質評估，并且我們的學習目标是僅看資料一眼就能實作較高的精确度。用于評估玩家的步驟數對于異常資料十分的敏感，但卻并不是和對于準确度一樣的直覺。相反，我們會考慮線上準确性，如下所述。正式說來，如果玩家說出t話語x(j)，并且标記為y(j)，那麼

注意到線上準确性是與玩家所用的标記相關，如果玩家是所使用的語言是簡潔，正确的，其标記又是與實際的準确度一一對應的。但對于大多數表現較差的玩家卻又不适用。

圖2：語用學提高線上準确度。在上圖中，每一種标記代表一類玩家。紅色0：表示排名前20玩家在縮小滾動次數方面的表現；綠色x：排名20-50；藍色+：排名低于50（包括表現極差的玩家）。标記的大小取決于玩家的排名，表現較好的玩家其标記更大。2a：在完整模式下有和沒有語用學的情況下的線上精确度；2b：在半完整模式下的情況。

表4：各種設定情況下的平均線上精度。存儲：以完整表達和不具組合性的邏輯形式為特色；半完整模式：以一進制，二進制或是跳詞的話語表達，但這些話語表達是以邏輯聯系在一起的。完整模式：這一模式會在第3部分進行描述+prag: 上述模式使用第4部分描述的線上語義算法。組合性和語用學都會提高準确度。

組合性。為研究組合的重要性，我們會考慮兩條基準線。首先會考慮非組合型模式（存儲），僅存儲幾對完整表達的語句和邏輯模式。我們在特征（x，z）上使用特征使用名額特征，例如（‘remove all the red blocks’，zrm-red），此外還會使用較大的學習率。其次，我們會考慮使用一進制，二進制或是跳詞等特征來處理語句的半完整模式，但是其邏輯模式是不具組合性的，是以我們會有以下的特征（‘remove’，zrm-red），（‘red’，zrm-red）等等。表4顯示出完整模式（第3部分）表現明顯優于存儲和半基線模式。

語用學。接下來我們會研究語用學對線上準确度的影響。圖2顯示模組化語用學對于使用簡潔，連續語言的成功玩家（例如，在滾屏方面排前10的玩家）十分的有用。有趣的是，語用學模組化對于使用不準确或是不連續語言的玩家沒有幫助甚至是用害。這是預期的行為：語用模組化會假設人類表現是合作并且理性的。對于排名較低的玩家而言，這一假設又是不成立的，因為在此情況下語用模組化是沒有幫助的。

我們的研究工作會與大量的“落地”語言的相關工作聯系起來，因為一些情況下語言是為實作一些目标的一種方法而已。例子包括玩遊戲，與機器人互動，和聽從指令；我們利用語義學對話語進行邏輯分析，在這些設定中十分關鍵。

在語言遊戲中（illg）使用新的互動式學習是我們研究的獨特之處，在這一設定中模式必須從抓捕式學習轉變為互動式學習。盡管會經常使用線上梯度下降，例如，在語義分析中，我們會在真實的線上設定中使用線上梯度下降，會在資料中進行略過并進行線上精度測量。

為提高學習速率，我們會利用語用學的計算模型。其主要差別在于，以前的研究都是基于訓練過的基礎模式使用語用學，但是我們會學習線上模式。monore和potts通過學習提高語用學模式。于此相反，我們通過捕捉像互相排斥的現象使用語用學來加速學習過程。我們與之前的研究在一些小細節方面也不相同。首先，我們在線上學習設定下進行語用學模組化，此外還會對語用學模式進行線上更新。第二，參考遊戲不太可能通過設計起至關重要的作用，shrdlurn并不是特地按照所需的語用學模式進行設計的。我們所實作的改進都是由于玩家試圖使用一緻的語言。最後，我們會把話語和邏輯模式都當做是組合性目标的特征。smith等人會對話語（例如，單詞）和邏輯形式（例如，目标）進行分類；monroe和potts會使用特征但同時也會覆寫平均種類。

在未來，我們相信illg設定會值得研究并且對于自然語言接口有重要的意義。今天，這些系統進行了一次教育訓練和部署。如果在這項研究中，這些系統能迅速适應使用者的實時回報，我們就有可能為資源貧乏的語言和新的領域建立更加穩定的系統，但這一系統是定制的且能通過使用提高性能。

哈爾濱工業大學李衍傑副教授的點評：這篇文章使用新的互動式學習方法來研究語言遊戲問題，論文分析了人類的政策，發現使用語義合成性和避免同義詞與任務性能呈正相關；比較了計算機政策，發現在語義分析模型基礎上的模組化語用學（pragmatics）能為更多政策玩家加速學習過程。與以往方法相比，本文主要不同點在于本文采用了新的互動式學習方法，通過互動模型能夠從雜亂中學出語言。為提高學習速率，論文利用了語用學計算模型并能線上學習模型，通過捕捉互相排斥的現象使用語用學來加速學習過程。

本文作者：章敏

ACL2016最佳論文：通過互動學習語言遊戲

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希