天天看點

AlphaGo設計師黃士傑:“最強的學習技能在人類的腦袋裡”

AlphaGo設計師黃士傑:“最強的學習技能在人類的腦袋裡” 深度學習和強化學習結合看來才能解決彩票預測的問題 可以這麼說,AlphaGo的成功就是深度學習與強化學習的勝利,因為兩者結合在一起,建構判斷形式的價值網絡(Value Network),後來也成為AlphaGo Zero的主要理論。 雖然我們最終赢了,但這一盤棋确實有很大的弱點,如果五盤棋内,有20%的錯誤率,這樣的AI系統,你敢用嗎?是以我們決定,一定要把這個弱點解決掉,不隻是解決第四盤的問題,是要把AlphaGo項目全面解決。

AlphaGo設計師黃士傑:“最強的學習技能在人類的腦袋裡”

深度學習和強化學習結合看來才能解決彩票預測的問題

可以這麼說,AlphaGo的成功就是深度學習與強化學習的勝利,因為兩者結合在一起,建構判斷形式的價值網絡(Value Network),後來也成為AlphaGo Zero的主要理論。

雖然我們最終赢了,但這一盤棋确實有很大的弱點,如果五盤棋内,有20%的錯誤率,這樣的AI系統,你敢用嗎?是以我們決定,一定要把這個弱點解決掉,不隻是解決第四盤的問題,是要把AlphaGo項目全面解決。

後來過了三個月,我們就把弱點解掉了。怎麼做到的?還是采用深度學習和強化學習的方法,并不是用人類知識的方法。第一,我們加強AlphaGo的學習能力,所謂學習能力就是把網絡程度加深,從第一篇論文的13層加深到40層,而且是改成ResNet。第二個改變是,把政策網絡和神經網絡結合,讓AlphaGo的直覺和判斷一起訓練,使兩者更有一緻性。這個解決後的版本,就是Master。

我那段時間一直說服團隊,要帶Master上線下棋測試棋力,不要等到Master完全無敵後才下棋。2016年年底,我回到台灣,當時特别低調,線上上中文圍棋網站奕城和野狐申請了帳号,偷偷當職業棋士下棋。12月29号開始,我關在自己的房間裡測試Master,一盤棋下一小時,一早下三盤棋,然後吃飯,下午繼續,晚上吃完飯再繼續,非常累,到晚上眼睛都張不開。

我還記得一開始在奕城下棋,沒人要跟經驗值為零的我對弈,直到第二天邀約才陸續上門,到了第三天,還愈來愈多人觀看。那時壓力很大,很怕自己點選錯誤或是網絡連線斷掉,AlphaGo不能因為我而輸掉阿。

我到現在還是很感謝那些曾經和Master對弈的棋手。原本想低調比賽,但後來沒辦法,确實是每一盤都赢、每一盤赢的都是巨大的優勢。這當中,柯潔算是唯一一位可以跟AlphaGo比賽堅持最久的。

我們在初期預設AlphaGo Zero絕對不可能赢Master。圍棋被研究了幾千年,一個程式隻知道棋盤和規則,一切從零開始,怎麼可能會超越幾千年的圍棋曆史?但我們錯了,40天的訓練後,AlphaGo Zero超越了Master,我們非常意外,深度學習和強化學習的威力太大了。

AlphaGo Zero是從亂下開始,找出圍棋的下法,它隻用了三天,走過了人類研究圍棋的千年曆程。這也是有趣的地方,人類幾千年的累積,跟科學研究是一緻的。

=========================

沒有人會否認,AlphaGo在過去一年炒熱全球對人工智能的關注。

2016年3月,谷歌Deepmind旗下的圍棋程式AlphaGo,以4比1的成績戰勝南韓職業棋手李世石。一年後,拿掉所有人類知識、完全靠自學的AlphaGo Zero,在今年10月又以100比0的戰績碾壓“AI前輩”AlphaGo。從擊敗人類、到自學成材,AlphaGo的進展超乎預期,研發團隊也自然成為關注焦點。這當中,被稱為AlphaGo的“人肉手臂”,替AlphaGo向棋聖聶衛平說“謝謝聶老師”的黃士傑(Aja Huang),就是AlphaGo發展的重要推手。

1978年出生、現任Deepmind資深研究員的黃士傑,私底下是圍棋業餘六段,在每一場人機對戰中,都代表AlphaGo落子。但他不隻是手腳,更貼近他身分的描述,其實是AlphaGo的設計者、是AlphaGo的大腦。讓AlphaGo登上科學期刊《自然》(Nature)封面的那篇知名論文,黃士傑并列為第一作者。

2017年11月10日在台灣中研院舉辦的“2017年人工智慧年會”上,黃士傑首次把AlphaGo的研發過程公開說清楚,除了透露新一代AlphaGo Zero的能力還沒達到極限,他更多的是去分享身為一名科學家,旁觀機器的進步,以及一個科學團隊對基礎研究的使命和專注。

AlphaGo的研發過程,有四個時刻對我影響很大。

第一,是我們在南韓赢了李世石。當我們開始做AlphaGo時,沒想到它會變得那麼強。在南韓赢了李世石後,DeepMind首席執行官Demis Hassabis立刻發了一個推特,說“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺,這是我們團隊的一小步,但卻是人類的一大步。

第二個時刻,是我在網絡上操作AlphaGo更新版“Master”,下了60盤棋。我從小喜歡下棋,在台灣是業餘六段。Master在網絡上對弈的對象,都是我從小崇拜的人。雖然不是我真正在下棋,但卻感到非常榮幸。

第三個時刻,是今年在烏鎮進行的人機大戰,由我操作AlphaGo和世界冠軍柯潔九段下棋。柯潔還不滿20歲,非常年輕,當天比賽氛圍和李世石對弈時很不同。我記得在南韓比賽,能感受到李世石承受到很大的壓力,感覺他是在為人類而戰。我當時坐在他對面,也盡量保持謹慎的态度,不喝水、不去上洗手間。但到了第二次和柯潔對弈,比較像是人機合作的氣氛,柯潔還走過來說:“黃博士,很榮幸跟AlphaGo下棋”,坦白說我有點驚訝。這也讓我們知道,如果Master是無敵的,那機器存在價值到底在哪裡?應該是要幫助棋手擴張思路、擴充圍棋理論。

第四次對我意義重大的時刻,是AlphaGo Zero的出現。什麼是AlphaGo Zero?我們拿掉所有人類對圍棋的知識,隻喂AlphaGo Zero圍棋規則,讓它自己學習下棋。我回想起讀博士班的熬夜日子,就是不斷寫代碼、找bug,每天做測試,讓程式進步。

但AlphaGo Zero把我過去的所有東西全部取代,它完全不需要我的幫助。有同僚問我,Aja,AlphaGo Zero把你這十幾年來對圍棋計算機的研究,一點一點的拿掉,甚至還超越你,有什麼感覺?我的确心情複雜,但後來跟同僚說,這會是一個趨勢,如果我阻礙了AlphaGo,我确實應該被拿掉(笑)。AlphaGo有99%的知識是我做的,AlphaGo能走到這一步,我已經很滿足,找到了收尾。

AlphaGo Zero隻用三天走過人類的千年曆程

在Master之後,我們研究分出兩條線,一條是讓Master出去比賽,由我來測試,另一條線,則是把所有人類知識拿掉,從零開始學習,看AlphaGo Zero可以達到什麼程度。

我們在初期預設AlphaGo Zero絕對不可能赢Master。圍棋被研究了幾千年,一個程式隻知道棋盤和規則,一切從零開始,怎麼可能會超越幾千年的圍棋曆史?

但我們錯了,40天的訓練後,AlphaGo Zero超越了Master,我們非常意外,深度學習和強化學習的威力太大了。

繼續閱讀