AlphaGo設計師黃士傑：“最強的學習技能在人類的腦袋裡”

AlphaGo設計師黃士傑：“最強的學習技能在人類的腦袋裡” 深度學習和強化學習結合看來才能解決彩票預測的問題可以這麼說，AlphaGo的成功就是深度學習與強化學習的勝利，因為兩者結合在一起，建構判斷形式的價值網絡(Value Network)，後來也成為AlphaGo Zero的主要理論。雖然我們最終赢了，但這一盤棋确實有很大的弱點，如果五盤棋内，有20％的錯誤率，這樣的AI系統，你敢用嗎？是以我們決定，一定要把這個弱點解決掉，不隻是解決第四盤的問題，是要把AlphaGo項目全面解決。

深度學習和強化學習結合看來才能解決彩票預測的問題

可以這麼說，AlphaGo的成功就是深度學習與強化學習的勝利，因為兩者結合在一起，建構判斷形式的價值網絡(Value Network)，後來也成為AlphaGo Zero的主要理論。

雖然我們最終赢了，但這一盤棋确實有很大的弱點，如果五盤棋内，有20％的錯誤率，這樣的AI系統，你敢用嗎？是以我們決定，一定要把這個弱點解決掉，不隻是解決第四盤的問題，是要把AlphaGo項目全面解決。

後來過了三個月，我們就把弱點解掉了。怎麼做到的？還是采用深度學習和強化學習的方法，并不是用人類知識的方法。第一，我們加強AlphaGo的學習能力，所謂學習能力就是把網絡程度加深，從第一篇論文的13層加深到40層，而且是改成ResNet。第二個改變是，把政策網絡和神經網絡結合，讓AlphaGo的直覺和判斷一起訓練，使兩者更有一緻性。這個解決後的版本，就是Master。

我那段時間一直說服團隊，要帶Master上線下棋測試棋力，不要等到Master完全無敵後才下棋。2016年年底，我回到台灣，當時特别低調，線上上中文圍棋網站奕城和野狐申請了帳号，偷偷當職業棋士下棋。12月29号開始，我關在自己的房間裡測試Master，一盤棋下一小時，一早下三盤棋，然後吃飯，下午繼續，晚上吃完飯再繼續，非常累，到晚上眼睛都張不開。

我還記得一開始在奕城下棋，沒人要跟經驗值為零的我對弈，直到第二天邀約才陸續上門，到了第三天，還愈來愈多人觀看。那時壓力很大，很怕自己點選錯誤或是網絡連線斷掉，AlphaGo不能因為我而輸掉阿。

我到現在還是很感謝那些曾經和Master對弈的棋手。原本想低調比賽，但後來沒辦法，确實是每一盤都赢、每一盤赢的都是巨大的優勢。這當中，柯潔算是唯一一位可以跟AlphaGo比賽堅持最久的。

我們在初期預設AlphaGo Zero絕對不可能赢Master。圍棋被研究了幾千年，一個程式隻知道棋盤和規則，一切從零開始，怎麼可能會超越幾千年的圍棋曆史？但我們錯了，40天的訓練後，AlphaGo Zero超越了Master，我們非常意外，深度學習和強化學習的威力太大了。

AlphaGo Zero是從亂下開始，找出圍棋的下法，它隻用了三天，走過了人類研究圍棋的千年曆程。這也是有趣的地方，人類幾千年的累積，跟科學研究是一緻的。

=========================

沒有人會否認，AlphaGo在過去一年炒熱全球對人工智能的關注。

2016年3月，谷歌Deepmind旗下的圍棋程式AlphaGo，以4比1的成績戰勝南韓職業棋手李世石。一年後，拿掉所有人類知識、完全靠自學的AlphaGo Zero，在今年10月又以100比0的戰績碾壓“AI前輩”AlphaGo。從擊敗人類、到自學成材，AlphaGo的進展超乎預期，研發團隊也自然成為關注焦點。這當中，被稱為AlphaGo的“人肉手臂”，替AlphaGo向棋聖聶衛平說“謝謝聶老師”的黃士傑(Aja Huang)，就是AlphaGo發展的重要推手。

1978年出生、現任Deepmind資深研究員的黃士傑，私底下是圍棋業餘六段，在每一場人機對戰中，都代表AlphaGo落子。但他不隻是手腳，更貼近他身分的描述，其實是AlphaGo的設計者、是AlphaGo的大腦。讓AlphaGo登上科學期刊《自然》(Nature)封面的那篇知名論文，黃士傑并列為第一作者。

2017年11月10日在台灣中研院舉辦的“2017年人工智慧年會”上，黃士傑首次把AlphaGo的研發過程公開說清楚，除了透露新一代AlphaGo Zero的能力還沒達到極限，他更多的是去分享身為一名科學家，旁觀機器的進步，以及一個科學團隊對基礎研究的使命和專注。

AlphaGo的研發過程，有四個時刻對我影響很大。

第一，是我們在南韓赢了李世石。當我們開始做AlphaGo時，沒想到它會變得那麼強。在南韓赢了李世石後，DeepMind首席執行官Demis Hassabis立刻發了一個推特，說“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺，這是我們團隊的一小步，但卻是人類的一大步。

第二個時刻，是我在網絡上操作AlphaGo更新版“Master”，下了60盤棋。我從小喜歡下棋，在台灣是業餘六段。Master在網絡上對弈的對象，都是我從小崇拜的人。雖然不是我真正在下棋，但卻感到非常榮幸。

第三個時刻，是今年在烏鎮進行的人機大戰，由我操作AlphaGo和世界冠軍柯潔九段下棋。柯潔還不滿20歲，非常年輕，當天比賽氛圍和李世石對弈時很不同。我記得在南韓比賽，能感受到李世石承受到很大的壓力，感覺他是在為人類而戰。我當時坐在他對面，也盡量保持謹慎的态度，不喝水、不去上洗手間。但到了第二次和柯潔對弈，比較像是人機合作的氣氛，柯潔還走過來說：“黃博士，很榮幸跟AlphaGo下棋”，坦白說我有點驚訝。這也讓我們知道，如果Master是無敵的，那機器存在價值到底在哪裡？應該是要幫助棋手擴張思路、擴充圍棋理論。

第四次對我意義重大的時刻，是AlphaGo Zero的出現。什麼是AlphaGo Zero？我們拿掉所有人類對圍棋的知識，隻喂AlphaGo Zero圍棋規則，讓它自己學習下棋。我回想起讀博士班的熬夜日子，就是不斷寫代碼、找bug，每天做測試，讓程式進步。

但AlphaGo Zero把我過去的所有東西全部取代，它完全不需要我的幫助。有同僚問我，Aja，AlphaGo Zero把你這十幾年來對圍棋計算機的研究，一點一點的拿掉，甚至還超越你，有什麼感覺？我的确心情複雜，但後來跟同僚說，這會是一個趨勢，如果我阻礙了AlphaGo，我确實應該被拿掉（笑）。AlphaGo有99%的知識是我做的，AlphaGo能走到這一步，我已經很滿足，找到了收尾。

AlphaGo Zero隻用三天走過人類的千年曆程

在Master之後，我們研究分出兩條線，一條是讓Master出去比賽，由我來測試，另一條線，則是把所有人類知識拿掉，從零開始學習，看AlphaGo Zero可以達到什麼程度。

我們在初期預設AlphaGo Zero絕對不可能赢Master。圍棋被研究了幾千年，一個程式隻知道棋盤和規則，一切從零開始，怎麼可能會超越幾千年的圍棋曆史？

但我們錯了，40天的訓練後，AlphaGo Zero超越了Master，我們非常意外，深度學習和強化學習的威力太大了。

AlphaGo設計師黃士傑：“最強的學習技能在人類的腦袋裡”

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡