天天看點

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

Kinds of Intelligence:AlphaZero 成全場焦點,認知科學大牛唱反調

Kinds of Intelligence 主要讨論了實作智能的多種途徑,吸引了衆多參會者前來。不少生物界、心理學界和認知科學界的專家分享了人工智能以外的研究。

DeepMind 的 CEO Demis Hassabis 也是此次研讨會的嘉賓。Hassabis 上台時,現場雷動。偌大的會議大廳座無虛席,連走道上都是參會者,逼得保安不得不過來安排下秩序。學術圈的大會熱捧工業界的新星,也隻有 DeepMind 能享受這番待遇。

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

Demis Hassabis

周二,

DeepMind 公布了其圍棋程式的最新疊代 AlphaZero

。和 AlphaGo Zero 一樣,AlphaZero 不需要人類的知識,完全靠自我對弈的強化學習,從零開始。不同的是,AlphaZero 擁有更強大的泛化能力,經過不到 24 小時的訓練後,Alpha Zero 可以在國際象棋和日本将棋上擊敗目前業内頂尖的 AI 程式(這些程式早已超越人類世界冠軍水準),也可以輕松擊敗訓練 3 天時間的 AlphaGo Zero。

Hassabis 先介紹了 DeepMind 和 AlphaGo 的發展曆程,然後着重介紹了 AlphaZero 是怎麼從圍棋泛化到國象和日本将棋上。

目前最前沿的國象 AI 程式依然使用 Alpha-Beta 搜尋和啟發算法。2016 年 TCEC 世界冠軍 Stockfish 是這個領域最好的 AI 程式,但 Stockfish 依然需要大量手動調整,包括棋局表征、搜尋、落子順序、評估以及殘局庫。AlphaZero 呢?隻需要基于自我對弈強化學習加自我對弈蒙特卡洛樹搜尋即可。同時,AlphaZero 可以完全在這三種不同的棋類遊戲中泛化,三種棋類背後的算法和超參數完全相同。

AlphaZero 的戰績是顯著的:對陣國象 AI 程式 Stockfish 是 28 勝 72 平 0 負;對陣将棋頂尖程式 Elmo 是 90 勝 2 平 8 負;對陣訓練三天的 AlphaGo Zero 是 60 勝 40 負。

Hassabis 提到了有關 AlphaZero 的幾個有趣的事實:下棋的每個決定都需要一定的搜尋量。人類一般是 10 次,目前最先進的國象程式是 1000 萬次,AlphaZero 則是 10000 次,介于兩者之間;AlphaZero 下國象中,摒棄了許多人類的招數,比如 Kings Indian Defence、French Defence 和 Queen Pawn Game,這三種都是很常見的國象開局方式;AlphaZero 偏愛長期位置犧牲(long-term positional sacrifices),為了最後的赢面在前期犧牲掉部分棋子。

擁有更好泛化能力的 AlphaZero 讓很多人相信人類離通用人工智能(AGI)又近了一步。然而,其他幾位受邀嘉賓并不買賬。東海岸的兩位認知科學大牛——紐約大學的 Gary Marcus 和來自麻省理工大學的 Josh Tenenbaum 都不認為 AlphaZero 代表了 AGI 的研究方向。

Tenenbaum 認為智能不僅僅是将一個公式計算地特别好,而是思考到底解決什麼樣的問題。他提出了一個非常有意思的想法:建造一個像小孩子一樣學習的機器。

Tenenbaum 向觀衆展示了一個視訊:一個小孩看到大人雙手捧着書,在一個關着門的書櫥前踱步,小孩很自覺地走上前把門打開。這樣的了解能力和操作能力,是機器做不到的。要建造這樣的機器,需要三個步驟:建立一個具備常識的核心;用這個核心學習語言;用語言學習任何東西。

之後登場的 Marcus,更是圈内有名的「辯論手」(詳細參見他十月和 Yann LeCun 的争論)。此次演講,他還專門為了 AlphaZero 做了篇 PPT:AlphaZero 隻适用于完美資訊的遊戲博弈,但并不适合通用人工智能。

Marcus 提出了一個有關「認知」的公式:Cognition=f(a, k ,e),其中 a 代表先天的算法,k 代表先天知識,e 代表經驗。這個公式同樣可以适用于 AlphaZero。完美資訊棋盤博弈獲得成功的條件是棋盤規則+經過人類程式設計的棋局表征,a 則是強化學習+蒙特卡洛樹搜尋+基于經驗得到的超參數,即使沒有了先天知識 k,AlphaZero 同樣獲得了成功。

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

但無論是圍棋、将棋、國象,都和生活是不一樣的:棋局是完美資訊,但生活是不完美資訊;棋局可以被完美模拟,生活卻不可能;棋局裡可以有無限的資料,而生活裡的每個事物的資料量都不多;棋局裡唯一要緊的是盤面狀态,但生活中,什麼都有要緊。

是以,在一個開放的世界裡,先天的算法和先天的知識需求量都會增加,就不是 AlphaZero 可以應付的了。

Marcus 從 DeepMind 中得到的另一個結果是,即使是在完美資訊的遊戲中,一些先天的結構依然不可缺少,比如蒙特卡洛樹算法。是以,他強調 AlphaGo Zero 以及 AlphaZero 不是所謂的「零知識」。這裡的「零知識」隻針對專有領域知識(domain knowledge),不包括像蒙特卡洛樹搜尋這樣經過人類多年研究的算法。

最後,越說越激動的 Marcus 大聲疾呼:「生活不是一場 Kaggle 競賽!」

「在生活中,沒有東西是被整齊的預先包裝好的(像 Kaggle 裡的資料集那樣),沒有人能保證你昨天的挑戰和今天的挑戰一樣,你希望學習的是可以重複使用的技能和知識,并且可以用在未來的挑戰裡,而實作這種可重用性才應該是大家關注的重點。」

除了有關 AlphaZero 的争論外,這場研讨會也提供了其他研究人工智能的思路。

來自加州伯克利大學心理學和哲學教授 Alison Gopnik 倡導将兒童的學習方法與人工智能相結合。Gopnik 是第一位将機率模型應用于兒童學習的認知科學家,特别是使用因果貝葉斯網絡架構。在過去的 15 年中,她将計算模型應用于早期認知發展的許多領域,包括實體和社會概念的學習。

阿蘭圖靈在 1950 年就說過,「與其嘗試模拟成人的大腦,為什麼不直接創造一個模拟小孩的大腦。」Gopnik 在研究中發現,一個四歲的小孩可以理性地從條件機率推斷複雜的因果結構;在面對新證據後,會整合和推翻先前的知識;推斷出未觀察過的結構;推斷出抽象的分層超假設;在實體、生物和心理學領域推斷出理論知識。

近幾年,越來越多的研究人員發現年紀小的孩子更具有探索性。Gopnik 總結了小孩子的學習特點,除了獎勵機制外還具有很強的求知欲,這些發現都對人工智能研究帶來了一些新的方向和思考。

Interpretable Machine Learning :一場關于機器學習可解釋性的辯論

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

從左到右:Patrice Simard、Kilian Weinberger、Yann LeCun

近年來,複雜的機器學習模型(如深度神經網絡)在圖像識别、語音感覺、語言模組化和資訊檢索等廣泛的應用方面取得了出色的性能。人們對解釋由這些模型習得的表征及決策的興趣逐漸增加,也催生了在可解釋機器學習、因果關系、安全 AI、社會科學、自動科學發現、人機互動(HCI)、衆包、機器教學和 AI 道德等方面的研究。這場可解釋機器學習的研讨會的目的在于将這些密切相關但往往被孤立的主題聯系在一起。

可解釋的機器學習,使我們可以參考模型的預測結果,還有可能通過了解模型的結構更好地了解命題本身,例如犯罪預測及公共政策制定等;同時,了解模型本身又可以讓我們可以建立更準确的預測模型;在自動駕駛等領域,我們需要超越現在的「黑箱模型」的可解釋模型來避免罕見但代價慘重的錯誤。

NIPS 可解釋機器學習研讨會包含 6 個演講,以及兩場讨論,并公開宣布了一場「可解釋挑戰賽」。(

https://community.fico.com/community/xml

)。

上半場的演講主要就如何進行可解釋機器學習研究的方法展開,兩位演講者介紹了因果機率關系,以及一種結合物體檢測和 CNN 圖像特征,生成可了解的物體圖像内容。

可解釋挑戰賽公布之後進行的第一場小組讨論以十分平和的方式展開,Hanna Wallach、Kiri Wagstaff、Suchi Saria、Bolei Zhou 和 Zack Lipton 探讨了在進行可解釋研究中常見的問題,以及需要注意的事項,有趣的是在讨論的最後,嘉賓們達成了一緻,「明确需要進行解釋的對象」非常重要。

在 NIPS 2017 第四日下午的可解釋機器學習專題研讨會的最後一個小時,一場辯論點爆了現場的氣氛,并吸引了大量的參會人員現場圍觀。毋庸置疑,這是第四天的 Symposium 中最火爆的一場。

這場 NIPS 有史以來第一場辯論的主題為「可解釋性在機器學習中是必要的」(Interpretable is necessary in machine learning)。

正方一辯:微軟研究院傑出工程師 Patrice Simard

正方二辯:微軟研究院進階研究員 Rich Caruana

反方一辯:Facebook 人工智能研究部門 (FAIR) 負責人 Yann LeCun

反方二辯:康奈爾大學副教授 Kilian Weinberger

本次辯論由正反方分别陳述各自觀點拉開序幕:

正方一辯 Rich Caruana 觀點陳述:

Caruana 舉了一個例子:醫院用深度神經網絡來決定肺炎病人的住院順序,死亡率高的優先入院。但是,模型通過某項資料發現,患哮喘的人肺炎的死亡率比較低,因為他們經常會去醫院配藥、做診斷等等,是以很多病情發現的早。那麼按照這個模型的設定,同樣患肺炎的人,患哮喘的人是不是應該排在隊伍的後面。

Caruana 想用這個例子說明,社會中很多基于資料的模型做決定,但往往沒有正确地評估這個模型是否預測出正确的結果。解決的方法有,就是可解釋模型。通過在可解釋機器學習上的研究,他們發現不隻是哮喘,心髒病也會降低肺炎病人的死亡率,道理是一樣的。如果不解決可解釋性,根本無法預料這些問題的存在。

反方一辯 Yann LeCun 觀點陳述:

LeCun 的觀點非常直接:世界上有這麼多應用、網站,你每天用 Facebook、Google 的時候,你也沒有想着要尋求它們背後的可解釋性。人類的大腦有限,我們沒有那麼多腦容量去研究所有東西的可解釋性。有些東西是需要解釋的,比如法律,但大多數情況,它們沒有你想象中那麼重要。

LeCun 也舉了個例子:他多年前和一群經濟學家做了一個模型預測房價。第一個用的簡單的線性預測模型,經濟學家也能解釋清楚其中的原理;第二個用的是複雜的神經網絡,但是效果比第一個好上不少。最後,當這群經濟學家想要做預測房價的公司時,你猜他們會選擇哪一個?

LeCun 表示,任何時候在這兩種裡做選擇,絕大多數人都會選擇效果好的那一個。很多年裡,我們不知道藥物裡有什麼成分,我們一直在用。最後,LeCun 認為,整個有關神經網絡是黑箱的故事,事實上,你可以看到,它并不是黑箱,你可以看到所有的參數,你可以做靈敏度分析。我們常常被解釋性所催眠,因為它讓我們放心。

正方一辯 Patrice Simard 觀點陳述:

Simard 的主要意思是說到機器學習,就應該有一個準确的定義。機器學習的作用是從壞的函數中找到好的函數,我們可以把這個好函數的集合稱為假設空間(hypothesis space)。很多人覺得深度學習的假設空間是固定的,但假設空間可以變得非常非常大(因為我們可以定義無限多的問題)。在我們逐漸學習了文字,學習語言,學習了各種各樣的東西的過程中,假設空間也在不斷增加,這種小的積累過程讓學習變的更容易,這可以被稱為結構可解釋性。

Simard 的觀點是,不關心可解釋性的人應該停止來 NIPS 大會解釋最新的假設空間。而關心解釋性的人可以記錄假設空間的進化,讓學習變得可以被解釋,變得更容易。

反方二辯 Kilian Weinberger 觀點陳述:

在現實中,可解釋性并沒有那麼重要。人人都在用很複雜的東西,比如很少有人能夠完全了解英特爾的 i7 晶片的工作原理,但大家都很自然地用,而且很好用。機器學習也是這樣。在一些情況下人們需要可解釋性:一個是需要了解資料,神經科學家和生物學家需要進行研究,但他們其實需要的是敏感性分析 (sensitivity analysis)。他們隻是需要知道什麼特征會如何影響輸出結果。另一個是機器學習 debugging,但這個并不會幫助人們了解機器學習是如何運作的。最後一個是可靠性 (accountability)。不懂的人關心可解釋性是因為信任度 (trust),正如 80 年代時人們發現乘坐的是女飛行員駕駛的飛機時會下飛機。30 年之後,人們也會覺得害怕自動駕駛汽車的人是很奇怪的。

Kilian 問現場聽衆一個問題——假設你要做心髒病手術:醫生做手術有 10% 的死亡率;而手術機器人隻有 1% 的死亡率。當醫生出錯時,醫生可以了解自己犯了什麼錯而機器不會。這種情況下,是選讓醫生動手術還是手術機器人?不出所料,大部分現場聽衆都選擇了使用手術機器人。

在正反雙方進行完觀點陳述後,辯論進入第二個環節:正反雙方互相答辯。雙方就各自的觀點進行了充分且辯證的讨論,雙方探讨内容包括但不局限于,因果關系機率的重要性、測試的可靠性問題、結果可複制性問題等。

在辯論的最後一個環節,每位選手要求對對方辯題陳述一個自己認為最好的觀點:

Yann LeCun:在機器擁有意識之前,機器會一直犯錯。在對部署系統進行測試的時候尤其需要注意,不能忽略常識相關的測試場景。

Patrice Simard:過去神經網絡不好用是因為資料不夠多,但越來越多的資料會讓模型的各種性能,包括可解釋性也變得更好。

Kilian Weinberger:當人看到機器學習算法進行決策的時候,我們會用人的思維去了解機器;可解釋性可以讓我們了解機器的運轉方式與人不一樣。

Rich Caruana :人們介意的是準确度,而并不是很介意是否可以解釋,可能隻有科學家會為了完善理論而傾向可解釋的模型。

Meta Learning:四大門派的觀點沖突和 Schmidhuber 的驕傲

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

Meta-learning 專題研讨會開始于對目前深度學習模型複雜度的探讨:超參數的調試與網絡結構直接決定了訓練的最終效果,但是這兩部分的選擇随着深度學習的發展變得愈加繁重。想象一下從相對簡單的 5 層 LeNet 到異常複雜的 GoogleNet,雖然模型的結果得到了令人驚訝的提升,但是其複雜的程度不再是幾個工程師或是學者可以輕易接受的。Meta-learning 正是對這樣的關鍵問題進行的研究,盡管目前學界并未在 Meta-learning 的定義上達成一緻,但是無論從何種角度出發最終的目标均是一緻的:成熟的 Meta-learning 方法可以減輕工程師和學者在應用與研究過程中對模型調試的壓力,進而将精力集中在解決主要問題上。本次研讨會從以下 4 個角度出發,對未來 Meta-learning 的發展進行探讨。

Evolving Optimization 主張學習算法的結構是最為重要的研究方向,是以這一流派認為對于任意的學習問題,主要的學習架構應由人來建構,而其餘的任務則交給計算機來完成。事實上,當我們回顧所有成熟的工程問題時,我們會發現人們在解決這些問題時隻需要将時間與精力投入在高層次的架構設計上,其中的細節均由計算機依照優化的目标疊代設計。為什麼在機器學習的問題上我們還不能達到這樣的程度呢?被廣泛接受的說法是通用的機器學習算法的搜尋空間巨大,在有限的時間與資源下難以尋找到最優的方法。正是針對這一問題,Evolving 流派認為從遺傳的角度來尋找建構 Meta-learning 系統是合适的。

Bayesian Optimization 認為在學習過程中 (Hyperparameters) 對超參數的調整效率是極低的,且代價是極為昂貴的。考慮 (Model Selection) 模型選擇的問題,研究者根據有限的資料反複嘗試不同的參數組合去選擇在目前資料集支撐下的最優模型,如果不考慮根據常識經驗得到的通用設定,得到最優解的時間顯然是随着超參數數目指數級增加的。通過 Bayesian Optimization 的方法,同時進行 exploration 和 exploitation,尋找最優參數的過程将有可能得到加速。值得一提的是,使用 Bayesian Optimizaiton 理念的 AutoNet 工具包是第一個在深度學習競賽中獲勝的 AutoML 工具包。

Gradient Descent 方面認為 Meta-learning 可以有三種方法實作: 1> Model Based、2> Metric based、3> Optimization Based。在目前的研究中,這三種方法并沒有優劣之分,各有千秋。同時,優秀的學習被定義為成功地融合學習算法結構、優化學習所需要的資料以及優化方法的細節,缺少任一項學習的效果均會大打折扣。Meta-learning 應當被定義為從通用的學習目标開始,收到特定的(設計好的)影響後逐漸變為專精的學習過程。而真正的端到端學習則是機器具有能力計算并學習任意的模型,進而有目的地解決不同問題。

Reinforcement Learning 認為在學習中要解決特定的問題,則必須在學習之前獲得足夠正确的先驗知識。這一點明顯的反映在獎勵函數 (Reward Function) 的設計上,一旦獎勵函數被正确的設計,整個學習過程并不需要過多的人為幹預。于是,能否正确的建立關于學習的模型成為了 Meta-learning 的關鍵。設計獎勵函數的做法,往往也被稱為引入 inductive bias,即将人為的經驗加入到機器的學習過程中進而加速學習正确目标的過程。然而,這種做法的正确性也得到了讨論:往往人為設計的獎勵函數僅考慮到與目标的契合,而忽略了與 agent 行為的一緻性。這種失配被稱為 Preferences-Parameters Confound。

顯然,這四個角度對于 Meta-learning 的了解各有側重,甚至存在不少沖突的觀點。在 Juergen Schmidhuber 教授的演講中,他針對真正的端到端學習給出了自己的定義。而在接下來 Satinder Singh 教授的演講中,Singh 教授直言不諱,劃掉了 PPT 中的 Meta-learning 字樣:看過剛剛 Schmidhuber 教授的演講,我自覺不足以在這裡讨論 Meta-learning 的話題,接下來隻側重 Reinforcement Learning。由此可見對于這樣仍然未被完全定義的領域中,不同的學者對于 Meta-learning 的看法有多麼大的分歧。當然,正是這樣的分歧與争論不斷推動着 Meta-learning 向前發展。

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

Juergen Schmidhuber

Deep Reinforcement Learning - DRL 的泛化之路

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

自從 AlphaGo 在 2016 年、2017 年戰勝了李世乭和柯潔後,深度強化學習受到了越來越多的關注。本次 NIPS 大會期間,DeepMind 公布的 AlphaZero 更是讓深度強化學習的分享備受期待。

第一位演講者是來自 Google DeepMind 的 David Silver,演講題目「AlphaZero - 不用人類知識來駕馭棋類比賽」。David Silver 是倫敦大學學院的計算機科學教授,目前在 Google DeepMind 任職,是 Alpha 系列程式的核心研究者。

在演講中,他首先介紹了圍棋的特點,強調圍棋比起其他棋類可以有更多的變化。然後話鋒一轉進入演講的主角 Alpha 系列的發展。作為第一個擊敗人類世界冠軍的程式,AlphaGo 包含兩個不同的神經網絡:政策網絡和價值網絡,再結合著名的蒙特卡洛樹搜尋來完成訓練。同 AlphaGo 相比,它的疊代版本 AlphaGo Zero 采用了第一法則學習原理。該方法相比之前主要有如下四個特點:1. 無人類資料;2. 無人工特征; 3. 單獨的神經網絡; 4. 簡單搜尋。可以看出比起上一代 AlphaGo Zero 有了相當程度的簡化,此時演講者指出了他的重要觀點:越簡單,越廣泛(Less complexity → More generality)。接着 Silver 介紹了 AlphaGo Zero 的兩種新的神經網絡,其中政策網絡用來預測圍棋如何下子,而價值網絡負責預測獲勝者,二者的合成被應用在 ResNet 上。至于新的搜尋方法,在 AlphaGo 中主要采用 Search-based policy improvement 和 Search-based policy evaluation 兩個角度來完成強化學中的 Search-based policy 疊代。

在對原理有了大概的介紹後,Silver 作了 AlphaGo Zero 與之前版本的性能對比。其中 AlphaGo Zero 三天可以超過 AlphaGo Lee,21 天可以超過 AlphaGo Master,在 40 天的訓練後就可以擊敗世界冠軍。在訓練過程中研究者發現一個有趣的現象,AlphaGo 好像逐漸學會了一些特定棋譜,并熱衷于把它們應用于比賽。

接下來,最新的版本 AlphaZero 讓棋類比賽更加簡單。AlphaZero 通過 200 到 400 次不等的疊代就已經可以分别在國際象棋(Chess),将棋(Shogi),和圍棋(Go)中擊敗現有最強的棋類算法。其中象棋需要 4 小時,将棋需要 2 小時,擊敗 AlphaGo Lee 僅僅需要 8 小時訓練。AlphaZero 的具體資訊雖然這次并沒有透露,但其強大的能力讓我們對深度強化學習多了一份期待。最後演講者再次點題,堅持簡單的算法可以應用于更多的場景。

之後的提問環節,有觀衆對完全沒有人類知識表示不解。這裡 Silver 給出解釋,在模型的輸入資訊中除了包含規則外還有一定很簡單的圍棋的輸入和輸出範例,但數量很少,而且非常初級。

NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點複盤

第二個重要演講者 Joelle Pineau,是來自麥吉爾大學計算機科學系的教授。她的主要研究方向集中在「Planning, learning and decision-making,mobile robotics, human-robot interaction」和「adaptive treatment design。」

這次她的研究是關于學術研究的心病 - 論文複現。由于研究者操作手段不同,資訊不對稱等,對結果複現造成了很大的難度。這個問題嚴重困擾科學研究,讓成果驗證更難。根據自然雜志的調查結果,在 1576 名受試者中,有 52% 的人認為這是一個嚴重的危機,38% 的人相信這有影響。在另一項調查中,大部分科研工作者都經曆過無法複現别人成果的痛苦。其中化學領域超過 80%,生物領域達到 77%,實體和工程相關領域則有近 70%。在我們關注的機器學習領域,這種現象同樣達到了 80%。是以演講者希望有一個統一的平台來進行強化學習的研究。通過這個平台,研究者可以在上面調用已有的标準的底層算法,利用統一的硬體配置和算力支撐,來讓強化學習的研究更加可控,對模型參數的調整也會更容易。

雖然研究者的要求千差萬别,但最底層的需求實際上存在大量重複。如果統一該過程,并且對操作結果進行較長的描述,那會使人工智能研究成果更容易驗證,大大降低了偶然性和噪音。這種平台的推廣無疑可以加速人工智能的發展,也是現在各個學科的一個發展方向。

接着作者介紹了兩個易混淆的概念:Reproducibiity 和 Replication。其中 Replication 隻是簡單的重做實驗,在需要相同的資料,達到同樣結果時需要,這種情況隻适合與模拟資料,在現實生活中往往很難達到。Reproducibillity 就複雜的多,從精确的資料,參數的調整,清晰的文章和代碼,計算資源,系統配置等都需要達到一定要求,才可能把原有文章的結果應用到新的地方。

最後,演講者呼籲我們都能投身于一個 ICLR 2018 Reproducibility Challenge 的活動,互相監督驗證,共同驗證已有的文章結果,來促進人工智能技術的進一步發展。

接下來的亮點在于來自卡内基梅隆大學的教授 Ruslan Salakhutdinov 的精彩分享:神經地圖-深度強化學習的結構化記憶。

Ruslan Salakutdinov 是最近在機器學習領域很活躍的年輕教授,主要研究方向包括 Deep Learning、Probabilistic Graphical Models 和 Large-scale Optimization。這次他為我們帶來了如何給強化學習植入記憶,讓其在不同環境下都可以表現優異。

演講從監督學習開始,認為大部分深度學習都可以表示為監督學習:映射并輸出一個結果(Mapping and input to an output)。接着演講談到了環境對強化學習的影響,主要展現在三個方面:1. 環境是随着時間動态變化的;2. 動作對環境的影響存在不确定的滞後性;3. 對環境的标注是成本高昂而且很難實作的。為了解決這些潛在的問題,Ruslan 根據前人的工作,引入了記憶的概念來調整 agent,使得物體進入新環境時候有更好的表現。但外在記憶的引入又引起了新的問題,比如效率較低(因為要記錄所有的資訊)。作者的解決方案是利用位置感覺記憶(Location Aware Memory),這種方法可以起到一種類似于「地圖」的效果,幫助 agent 進行探索。而且該方法在輸出結果時候是利用稀疏的結果作為輸出,可以防止 agent 過多的重寫記憶。之後演講者又詳細介紹了這種神經網絡的具體細節,比如 operations, global read, context read 和 write。并且舉了不同的迷宮例子,還可以應用與定位問題和自然語言了解問題。在示範的環境,可以清晰看出之前有過「記憶」的 agent 進入新模型時候往往會根據經驗有更好的表現。

這種方法的理想狀态,agent 會擁有讀寫自己外在記憶的能力,而外在記憶會和知識庫互相轉化,并且 agent 也可以用不同的方法來和知識庫進行理性的交流(reason communication)。最後演講者還提出了一些展望,他表示希望進行不同 agents 共享記憶進行交流的嘗試。

之後的提問環節,有聽衆詢問是否可以構造更進階更抽象的模型?演講者給出了肯定的答案,但也承認在現階段距離該目标還很遠。在一個開放的環境(open domain)會遇到更多的困難。另一位聽衆問到是否可以嘗試不同的環境,比如新環境和舊環境有較大差别的情況?有過嘗試但目前環境的差别并不是全方位的,演講者希望有更多更好的模拟器出現。

這次的 DRL 分享反應出研究方向主要集中在深度強化學習的泛化和性能的提升。DeepMind 采用了簡化算法的方法,而 Ruslan 則選擇了引入記憶的途徑。殊途同歸,但該方向取得的進展無疑是激動人心的。 

繼續閱讀