強化學習之父Sutton訪談：創造AI，就是創造一種新的人類

在Machine Learning and the Market for Intelligence 2017大會上，艾伯塔大學計算機科學教授Richard S. Sutton與美國企業家、風險投資人士Steve Jurvetson進行了關于“為何目标對于智能至關重要”的對談。

Richard S. Sutton是艾伯塔大學計算科學系的教授兼iCORE主席。在2003年加入艾伯塔大學之前，他曾在美國AT&T公司和GTE實驗室以及馬薩諸塞大學工作。他于1984年獲得馬薩諸塞大學計算機科學博士學位，并于1978年獲得斯坦福大學心理學學士學位。2016年他當選為加拿大皇家學會會員。在艾伯塔大學，Sutton上司了強化學習和人工智能實驗室，是艾伯塔機器情報研究所的首席研究員。他的研究興趣集中在決策者與環境互相作用所面臨的學習問題上，他認為這是人工智能的核心。他還對動物學習心理學，連接配接網絡以及不斷改進世界的表征和模型的系統感興趣。Richard Sutton 被認為是強化學習之父。今年6月，Demis Hassabis宣布Richard Sutton将聯合上司一個位于加拿大的DeepMind辦公室，同時在艾伯塔大學保留他的教授職位。

Q: AI以人類為中心？或是一個完全不同的物種（對人類生存具有攻擊性和毀滅性）？(human-centric or alien AI)

A: 我想提出一種觀點，AI比我們想的更加以人類為中心。通常的觀點都是認為AI與人類相對立，機器會淘汰人類。但這僅是一家之言，是以我提出另一種觀點來平衡上述觀點。先從“人工智能”這個名字說起。這個名字暗示着這是一種和人類智能不同的智能，是人造的智能。但首先我們要定義這是一種與人類相似的智能。是以從定義來看，AI是以人類為中心的。是以，也許我們不該把它叫做“人工智能”，我們應該直接叫它“智能”。現在人們都把AI看作是一種工程上的存在，不是一種類人的存在。但我認為，在當今很多領域，AI都是以人類為中心的。比如機器翻譯就是關于人的溝通。是以，AI實際上是在增強 (enhancing) 人類，這也是AI具有重要商業意義的原因。AI不是在完虐人類，而是在增強人類。

Q: 這聽起來很像是人類的感覺，視覺、觸覺、聽覺乃至嗅覺都已經通過模拟的方式被使用了。這意味，我們可以了解經過刻意訓練的輸入輸出。但我們真的了解内在原理嗎？

A: 這同樣涉及到人類。人類也有神經網絡，用來形成反射、反應、直覺等。我們不了解人類是如何做到這些的，但我們就是相信。人們為什麼相信司機、飛機駕駛員？為什麼相信那些做重要商業決策的人？這個道理同樣适用于機器。從宇宙範圍來看，人類就是一種地球上能夠發明工具的動物。曆史上，人類通過發明工具、創造技術來增強自身。比如，鉛筆、眼鏡這些都是異常強大的工具。而且語言本身就是最重要的工具。我們用眼鏡增強自己。我們通過語言來更好地交流合作。是以，人類通過創造工具來過得更好。這和AI沒什麼差别。無法将人類與技術割裂開來。

Q: 你是否相信，有一天自主代理機器人情感系統将成為通往通用人工智能的一步？

A: 我認為預測是一個很微妙複雜的事情。作為普通人，預測能使人作出更好的決策。但AI超越了這一點。AI将決策、目标和預測整合在一起。就像養育孩子一樣，孩子是自主的，他們的目标并不在家長的掌控之下。我的專長是建立一個類似的情感系統，有絕對的自主權和決策權。

Q:你提到了好幾次“目标”。看起來這是一個關鍵因素。你認為這是一個通向更高智力水準的路徑嗎？

A: 是的。我們要有更多、更抽象的目标。但不能光有目标，而沒有實作目标的系統。

“目标”是一個簡單的詞，但你很可能會被誤導。處理方法是去找一些更長的詞組，例如“尋找目标”、“目标性”等。“目标”對于智能來說是至關重要的。假設有一個非常聰明的存在能夠進行預測，它有一個想達成的目标。它就能根據目标采取行動。

另外，我還想談一下人們對AI的擔憂。有很多報道都将AI和人類對立起來，認為我們終将被淘汰。這種想法是錯誤的。在我看來，AI将增強人類，它将淘汰的是人類的“舊我”（former selves）。但我承認的确存在這種将AI與人類對立起來的趨勢。我認為這都是“人工智能”這個名字惹的禍。這讓AI聽起來很像外星人。

我想說的是，我們正在設計創造一種全新的人類。我們将要創造一種新的存在，可能和人類的膚色、宗教略有不同。人類對此感到恐懼，這是正常的。人們總是對與自己不同的事物心生恐懼。Alpha Go是一個很好的例子。在西方，很多人認為它是與人類相對的機器。但在圍棋社群裡，有人認為它是一個神奇的機器，能夠很好地去了解圍棋，與人們一道加入對于圍棋這項優雅遊戲的無限探索之中。是以，我認為我們需要學會來歡迎AI這種不同類型的“人”。它具有如此多的多樣性，我們為何不歡呼慶祝？

Q:我們想聽聽您評價AlphaGo Zero。問題是，扔掉人類的訓練資料集似乎是創造更好的産品的一個方式，這如何适用于這種架構？

A：我們需要可擴充的方法。現在沒有人這麼做，這讓我很吃驚，沒有人展示計算機計算能力的指數級增長。你知道，現在這有一點mundane，但是這是一個複雜的效果，我們很難去意識到，我們需要可以擴充的方法和強大的計算力。我的意思是不僅要擴充問題的大小，還有随着計算力一起擴充，你的計算能力越強，你的系統效果就越好。是以，如果你是從人類的資料庫中進行學習，那麼很快，訓練資料集很快就會成為你的瓶頸。

Q:早期在計算機國際象棋上的研究發現，最高段的棋手+計算機的組合，并沒有直接使計算機能力更強？最新的AlphaGo Zero，如果我沒有了解錯，也是沒有進入人類訓練這一循環，隻需要與其他的計算機進行對抗學習。從哲學上說，這跟您剛才所提到的以人類為中心（huaman centric approach）似乎是完全相反的？

A: 其實不是的。作為人類，我們并不隻是在學校才會學習。我們從很小的時候就開始學習，甚至在還沒開始說話前，我們就開始學習。我們通過試錯進行學習。

接下來我要談一談強化學習，這是我所擅長的專業領域，也是我最喜歡的一種“學習”。強化學習就是在試錯中進行學習，這種試錯中使用的是“自學習”的方法，你需要在很多很多的對局中進行嘗試。是以，這并不是從人身上進行學習，而是以人類學習的方式進行學習。這和人類很像，就是從不斷的嘗試中進行學習。

确實，在遊戲的對弈中，你可以進行無數次的嘗試，這一方法（AlphaGo Zero）确實利用了這一點。但是，試錯這一想法本身并不要求有模拟。

我還要補充一點，博弈是很特殊的，因為我們知道遊戲的規則，我們可以分解它讓後知道其運作的規則是什麼。我們知道桌上的花瓶可能會掉到地上，因為我們知道實體理論，知道物體移動的方式，是以我們需要制定計劃。

正如AlphaGo要用到現實世界，你需要用現實世界的規則來替代圍棋的規則，比如，實體定律是什麼、很重要的是，實體定律很多都是直覺性的，比如，我打了我朋友一拳，他可能會還回來。這可能不是實體定理，比如如果我尖叫，那麼我的保镖可能會過來提供幫助。

是以，我們需要了解世界的運作方式，我們需要制定計劃。在象棋、圍棋和撲克中，我們可能不能計劃得那麼好。

原文釋出時間為：2017-11-27

本文作者：Cecilia 弗格森

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

強化學習之父Sutton訪談：創造AI，就是創造一種新的人類

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普