天天看點

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

我們本可以留在 DeepMind,繼續推動智能體技術的發展,但我認為我們選擇自行創業的根本原因,在于我們相信這樣可以更快地取得進展,更迅速地應對挑戰。

這種緊迫感源于我們堅信一個事實:距離實作類似 AGI 的目标,僅剩大約三四年的時間。

文 | 王啟隆

出品丨AI 科技大學營(ID:rgznai100)本文為 CSDN 編輯整理,未經授權,禁止轉載。2024 年的 AI 圈,有兩樣東西特别珍貴,一樣是 H100 顯示卡,另一樣就是人才。馬斯克就曾經在今年四月感慨過這事,說“人工智能的人才争奪戰是我見過的最瘋狂的人才争奪戰!”(The talent war for AI is the craziest talent war I’ve ever seen!)而這事的背景是他的“死對頭” OpenAI 想花重金挖角特斯拉自動駕駛團隊的機器學習科學家 Ethan Knight,馬斯克見狀隻好先出手把人留了下來,并給整個公司的 AI 工程團隊加了加薪。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相
“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

除了挖角,AI 圈還有一批人才通過不同的方式出走,那就是創業。今年五月份的時候,有兩大重磅新聞。前者是 OpenAI 釋出了 GPT-4o,搶走了 Google I/O 2024 的熱搜。後者是 OpenAI 首席科學家 Ilya Sutskever 的離職,搶走了 Google I/O 2024 的剩餘熱度。Ilya 後來告訴大家,他去創業了,想打造一款“安全超級智能”。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

這裡有個很有意思的淵源:OpenAI 本身就是 Ilya Sutskever 從谷歌離職創業的成果。作為經常被 AI 圈同行挖角的公司(據 LeadGenius 和 Punks & Pinstripes 的資料統計,2023 年初的時候 OpenAI 300 多名員工裡有 59 名谷歌前員工),谷歌可能也是 AI 圈離職創業最高頻的公司之一。我們常在新聞看到的“開源獨角獸” Mistral AI,由 DeepMind、谷歌和 Meta 三家公司前員工組成的 Reka AI,還有“Transformer 八子”開枝散葉之後成立的 Sakana AI,全都是谷歌前員工的離職創業成果。我們先前也整理過 Transformer 八子中 Aidan Gomez 的最新采訪,他雖然當年隻是在谷歌實習,但後面也确實是離職創業了,現在甚至壯大成 400 人的團隊。聚是一團火,散是滿天星。

今天要為大家介紹的,是年初的另一起離職創業事件,主角是 DeepMind 的前研究科學家 —— Misha Laskin。當時的新聞聚焦在和他一起出走的另一位 DeepMind 大神 Ioannis Antonoglou 身上,因為這位 Ioannis 不僅是 AlphaGo 和 AlphaZero 的共同創造者,還是 Gemini 的 RLHF 負責人。但 Misha Laskin 也不是等閑之輩。他同樣參與過 Gemini 項目,現在緻力于打造大語言模型的“AlphaGo 時刻”。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

Misha Laskin

如今,兩人離開 DeepMind,理由卻是因為他們堅信“AGI 在 3 年之内就會實作”,是以他們會在新公司 Reflection AI 中将強化學習的搜尋功能與大語言模型(LLMs)結合起來,矢志于“通用智能體”,為未來的開發者們訓練最可靠的模型。以下,是 Misha Laskin 最新接受的采訪全文,他會分享自己的技術生涯故事、AlphaGo 背後的故事和 Gemini 内部的秘密,同時詳細地為我們描述近期智能體(Agent)熱潮的來龍去脈,讓你重新了解智能體的巧妙之處。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

AlphaGo 背後的故事

主持人:首先,我們很想深入了解你的個人經曆。你出生在俄羅斯,一歲時移居以色列,然後在九歲時搬到了美國的華盛頓州。你的父母在化學領域深入科研,而這可能激發了你對推進科技前沿的熱愛,并引領你步入了今天的 AI 世界。

可以向我們分享一下,是什麼激勵你進入這個領域,并在你至今的童年和成年生活中一直激勵着你?

Misha Laskin:當我的父母離開俄羅斯,前往以色列之際,正值蘇聯解體,他們幾乎是兩手空空,口袋裡大概隻有 300 美元,而這筆錢在他們剛落地時就被偷走了,因為他們為一間較高價的電梯大廈付了押金,然而這筆押金卻不知所蹤,我甚至不知道那間較高價的電梯大廈是否存在。

由于不通希伯來語,他們決定在耶路撒冷的希伯來大學攻讀化學博士學位,這并非是因為他們對學術研究的滿腔熱忱,而是想要以色列政府為俄羅斯移民提供的深造獎學金。是以,我的父母一開始并未對化學抱有狂熱的激情,但随着對化學的不斷學習、探究和深入,他們卻成為了這一領域的佼佼者。

當我詢問父母這段經曆時,他們表示,随着時間推移,他們對所從事的領域産生了深厚的感情,因為他們在這個過程中逐漸變得極為出色。我想,這是我從他們那裡學到的最重要的一課。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

Misha 的老爹,普渡大學分析和實體化學家 Alexander Laskin

當我們從以色列搬家到美國時,我的父母提前向我承諾會搬到美麗的華盛頓州,那裡山巒起伏,風景如畫。是以在離開以色列之前,我對朋友們誇口說自己将會搬去一個美麗的地方,心中充滿了期待。我還清晰記得,我們乘坐飛機穿越天際時的那份激動。飛行途中,我确實瞥見了遠處連綿的山脈,然而,飛機卻突然來了一個大轉彎 —— 可能你們并不了解,華盛頓州的真實地理環境是這樣的:一半是廣闊的沙漠,另一半則是郁郁蔥蔥的山林。是以,當時飛機轉向了沙漠那一邊的方向,年幼的我目睹着飛機降落在一片荒涼之地。

我疑惑地詢問父母,說好的山脈究竟在哪兒?他們告訴我,“你已經在飛機上見到了。”

我之是以提起這段往事,是因為我實際上搬到了一個相當乏味的地方。具體是哪個城市呢?華盛頓州有一片區域被稱為“Tri-Cities”,這裡蘊藏着一段獨特的曆史,它是曼哈頓計劃的一個關鍵站點 —— 漢福德基地。這是钚元素的聚集地,與洛斯阿拉莫斯基地遙相呼應,同屬曼哈頓計劃的重要組成部分。1940 年代,為了支援這一項目,Tri-Cities 小鎮應運而生,如同洛斯阿拉莫斯一樣,坐落在偏遠地帶,周圍幾乎沒有什麼娛樂活動。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

電影《奧本海默》裡描繪的秘密小鎮

我至今仍記得第一次目睹高速公路上随風飄蕩的“風滾草”,那一刻讓我發現自己置身于一個陌生的環境,英語并不熟練。我生活在一個與我成長環境截然不同的鄉村,那裡朋友寥寥,是以我擁有着大量的閑暇時光。

我對科學的興趣,最初源于對實體學的好奇。當時我沉迷于電子遊戲,心靈相當空虛,這時我偶然發現了我的父母收藏着關于費曼實體學講座的資料。這些講座之是以引人入勝,是因為費曼獨樹一幟的講解方式,他能夠以一種平易近人的語言,深入淺出地解析極其複雜的概念,即便是數學基礎較為薄弱的人也能從中領悟到自然界運作的基本法則。

費曼無疑成為了我獲得靈感的源泉。我開始對探尋事物運作的根本規律産生了濃厚的興趣,渴望解決那些核心問題。我閱讀了許多案例,比如半導體的發明,這項成就出自理論實體學家喬·巴丁之手,又或是 GPS 的運作原理 —— 令人驚訝的是,要了解和應用 GPS,必須掌握相對論計算,而這正是基于愛因斯坦的狹義相對論。随着我發現這些案例的關聯,我開始渴望投身于這類創新工作,這便是我投身實體學的初衷。我全身心投入,不斷學習,最終獲得了博士學位。

然而,我當年還沒領悟一個道理:你不僅應該專注于解決核心問題,更重要的是,你還應該緻力于解決你所在時代的核心問題,即那些正處于突破邊緣的課題。

這并不讓人意外,當你成為一名實體學家,接受專業教育訓練時,你将面對一系列引人入勝的問題,學習前人在大約一百年前對實體學的精妙見解。在那個時代,實體學正是科學研究的核心,這也正是我最終決定放棄将實體學作為職業道路的原因 —— 我來了個 180 度的大轉彎,決定投身實踐。

是以,我創辦了一家公司。然而,在此期間,我開始留意到深度學習領域的迅猛發展,尤其是 AlphaGo 的出現。當 AlphaGo 橫空出世時,我感受到了前所未有的震撼:他們是如何創造出這樣的系統?一台計算機,不僅能展現出超越人類的表現,還能展現出創造性思維。

在 AlphaGo 的比賽中,有一個尤為著名的舉動,被稱為「第 37 手」,神經網絡執行了看似愚蠢的走法,令他的對手李世石感到困惑不已。所有人對此都感到不解,它看起來就像是一個明顯的失誤。然而,十步之後,事實證明,這恰恰是讓 AlphaGo 占據優勢地位的關鍵一招。這足以說明,這不僅僅是簡單的暴力查詢。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

第 37 手(Move 37)

顯然,盡管系統進行了大量的搜尋,但它卻能夠找到之前未曾被人類考慮過的創新解決方案。這一刻,我深切地感受到解決智能體問題的重要性,并認為 AlphaGo 是第一個真正的大型超人類智能體(Agent)。這一發現讓我感到無比震撼。這就是我步入 AI 領域,從一開始就緻力于建構智能體的原因。

我的路徑并非直線前行,而是曲折多變。作為一個局外人,我面臨着激烈的競争。OpenAI 大約在 2018 年或 2019 年釋出了一系列研究課題,這些課題是他們希望其他人參與研究的項目。當我看到這份清單時,它實際上已經有些過時,是以我猜測他們對這些課題的興趣可能已經減弱。但這給我提供了一個明确的研究方向。我開始針對其中一個問題展開研究,感覺自己正在取得進展。

雖然我不确定實際進展了多少,但我後來頻繁地向幾位來自 OpenAI 的研究科學家提問,我持續不斷地給他們發送郵件,直到可能他們覺得我有點過于執着,但他們還是以極高的專業素養回應了我。通過這一過程,我在那裡建立了一些聯系。其中一人将我引薦給了 Peter Abbeel,他是伯克利大學的研究主管之一,也是我認為在強化學習和機器人領域最傑出的研究者之一。他的實驗室涉獵廣泛,不僅限于某一領域。他們進行了一些最具影響力的研究,尤其是在生成模型方面。其中一個關鍵的擴散模型論文就是出自該實驗室,我不得不承認,我的确是幸運的。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

Peter Abbeel

Peter 願意承擔風險,将我納入他的團隊。他其實并沒有充分的理由這樣做。當我後來站在另一方,審視那些申請加入團隊的人時,我意識到他完全沒必要選擇一個未經驗證的新人。但他還是決定給予我機會。我想,這正是我踏入 AI 領域,邁出的第一步。

主持人:你和你的聯合創始人 Ioannis Antonoglou 在 DeepMind 和 Google 完成了在我看來堪稱卓越的項目。能否展示一些你們共同參與的項目,比如 Gemini 和 AlphaGo?

Misha Laskin:Ioannis Antonoglou 實際上是真正引領我踏入 AI 領域的人。他是 AlphaGo 項目的關鍵工程師之一,并親曆了 AlphaGo 在首爾與李世石對決的那一刻。實際上,在 AlphaGo 問世之前,他就參與了一項名為 Deep Q-Networks(DQN)的開創性工作。DQN 是深度學習時代首個取得成功突破的智能體,能夠駕馭 Atari 電子遊戲。這一裡程碑式的成果催化了整個深度強化學習領域的蓬勃發展,即自主學習在視訊遊戲和機器人環境中的行動能力的 AI 系統。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

Ioannis Antonoglou

然而,這僅僅是開端。它證明了一個至關重要的點:僅憑原始感官輸入,AI 系統就能學會在環境中可靠地行動。我認為,這一突破與 2012 年神經網絡在 ImageNet 上的卓越表現具有同等的重大意義。随後,Ioannis 繼續參與了 AlphaGo 及其後續系列項目。其中包括 AlphaGo 本身、AlphaZero,以及一篇題為 MuZero 的論文。這些項目生動展現了這一理念的深遠影響。與我們現今擁有的大語言模型相比,AlphaGo 的模型規模雖小,但在其專長領域展現出了驚人的智慧。

對我而言,AlphaGo 帶來的核心啟示,至少在個人層面上,可以追溯到 Richard Sutton 這位強化學習研究領域的大師。他被譽為強化學習研究的先驅,寫過一篇經典文章,《苦澀的教訓》(The Bitter Lesson)。他在文中強調,如果你正着手建構基于内部啟發式原則的系統,那麼這些原則很可能被那些能夠自主學習的系統所超越。更确切地說,是被那些能夠以可擴充方式高效利用計算資源的系統所取代。

他闡述了兩種利用計算資源的途徑。第一種是學習,即通過訓練實作。當我們談論當今的語言模型時,它們主要通過在網際網路上學習來有效利用計算資源。第二種途徑是搜尋,即運用計算資源來展開并評估一系列行動計劃,進而挑選最優解。AlphaGo 正是将這兩種理念巧妙融合的典範。我始終堅信,這是 AI 領域最為深刻的思想之一,即結合學習與搜尋,是最大化利用計算資源的最優政策。

AlphaGo 的成功,正是這兩者結合的結晶,它揭示了産生圍棋領域超人類智能體的關鍵。然而,AlphaGo 的局限性在于其專長僅限于單一領域。我回憶起在強化學習領域那段時期,确實給人一種止步不前的感覺,因為我們的目标是建構具備通用智能的智能體,即超人類的通用智能體。

然而,領域内的進展停留在了超人類但極度狹窄的智能體層面。我們缺乏明确的路徑來拓展它們的通用性,因為這些智能體的資料效率極低。若要在單一任務上實作六億步的訓練,那你又将從哪些地方擷取足夠的資料來覆寫其他所有任務的訓練呢?正是大語言模型時代的到來,為我們帶來了劃時代的突破。

我們可以将網際網路上的海量資料視為多種任務的集合。維基百科代表了描述曆史事件的任務,而 Stack Overflow 則承載了程式設計問答的使命,以此類推,将網際網路視作一個巨大的多任務資料寶庫。有趣的是,我們之是以能從語言模型中獲得泛化能力,正是因為它們在本質上是一個經過大量任務訓練的系統。

然而,這些任務并不特别聚焦或針對性強,而且在網際網路上,缺乏對于可靠性和智能體概念的明确定義。是以,由此産生的語言模型在智能體能力上并不特别突出。它們無疑是令人驚歎的,能完成許多驚人的壯舉。但是,智能體面臨的一個根本性挑戰是,你需要在多個步驟中進行決策,每一步都伴随着一定的錯誤率。錯誤會随着時間的推移而積累,這一現象被稱為錯誤累積。這意味着,即使在第一步僅有一定機率的錯誤,也可能在後續幾步中迅速累積至幾乎無法在有意義的任務上保持可靠性的程度。

我認為,目前的關鍵缺失在于,我們已經有了語言模型或利用學習的系統,但它們尚未成為能夠以可擴充方式利用搜尋或規劃的系統。這就是我們需要填補的空白 —— 通用智能體的競争力尚顯不足。是以,我們需要提升它們的競争力。迄今為止,唯一存在的實證是 AlphaGo,它通過搜尋實作了這一目标。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

談智能體(Agent):

我們應當盡可能地将決策權交給 AI 系統本身

主持人:能否進一步分享你最初的靈感來源,你所追求的問題領域,以及你創立 Reflection 的長遠願景?

Misha Laskin:最初的靈感主要源于我和 Ioannis Antonoglou 的密切合作。在 Gemini 項目中,我們并肩作戰,Ioannis 主導了 RLHF(基于人類回報的強化學習)項目,而我負責獎勵模型的訓練,這是 RLHF 不可或缺的一部分。

我們共同關注的焦點,以及整個行業正在努力的方向是:在預訓練之後,對這些語言模型進行調整,使其适用于聊天功能。這意味着,我們為模型進行對齊,以確定它們能為終端使用者提供出色的互動體驗。

值得注意的是,預訓練語言模型具有極強的适應性。是以,憑借恰當的資料組合,我們可以将它們調整為高度互動的聊天機器人。在這一過程中,我們獲得了重要洞察:對于聊天功能而言,并不存在特别的處理方法。你所做的,僅僅是收集聊天相關的資料。但如果你為其他能力收集資料,同樣能夠解鎖這些能力。當然,實際情況并非如此簡單。在很多方面,情況發生了變化。

我想要強調的是,一個關鍵差別在于聊天是具有主觀性的。是以,用于聊天的訓練算法,與用于具有明确目标(如指定任務)的場景的算法大相徑庭。當然,随之而來的是一系列挑戰。但最核心的是,我們相信現有的架構和模型是有效的。曾經我認為的諸多瓶頸,如今已被計算能力和規模所克服。例如,長上下文長度是我認為需要研究突破才能解決的問題,而現在,所有的同行都在釋出具有比我們一年或兩年前認為可能的極長上下文長度的模型。這表明,技術的進步正在以前所未有的速度推動我們向前邁進。

主持人:你将智能體描繪為你和 Ioannis Antonoglou 作為研究者心中的夢想,同時也是 Reflection 公司的核心追求。我們不妨暫時停下腳步,深入探讨一下“智能體”這個概念。因為如今這個詞已成為 2024 年的熱門詞彙,且智能體這個詞的意義似乎正在逐漸淡化。

最近,人們對某些智能體表現出了極大熱情,但它們似乎在達到足夠可靠、能成為真正同僚級别的智能體方面,依然處于初級階段。我猜想,你對智能體可能有着更為純粹和深刻的定義。或許,你能為我們解釋一下嗎?你是如何界定智能體的含義?你認為我們在通往這一目标的道路上,究竟處于哪個階段?我們又如何抵達理想中的智能體世界?

Misha Laskin:這是一個值得深思的問題,因為“智能體”這一概念其實在研究界已存在多年。我認為,自 AI 領域誕生以來,這個概念便一直伴随左右,但我主要是在深度學習時代背景下思考智能體的内涵。從 DQN 起步,對智能體的定義其實非常簡潔:智能體是一種具備自我推理能力的 AI 系統,它能夠自主采取一系列行動,以實作指定的目标。這就是智能體的本質。

而現在,目标的設定方式随時間演變,在深度強化學習時代,目标通常通過獎勵函數的形式來設定。例如,在 AlphaGo 中,目标就是判斷你是否赢得了圍棋比賽。沒有人會通過文字指令告知它“去赢下圍棋比賽”。這就是人們通常對智能體的認知:在優化獎勵函數的過程中尋找最優解。

然而,在語言模型崛起之前,就已經存在一個專門研究目标導向型智能體的領域。這些智能體可能存在于機器人或視訊遊戲中,你為機器人設定一個目标,比如給它一張蘋果被移動到特定位置的圖像,要求它複現這個場景。為此,機器人必須在現實環境中行動,拿起蘋果并将其移動到正确的位置,以達成既定目标。簡言之,智能體就是在環境中自主行動,以實作特定目标的 AI 系統,這正是智能體的核心特征。

主持人:随後我想繼續探讨,如果以程式設計智能體為例 —— 這是智能體領域中近期活動頻繁的一個方向,還出現了 SWE-Agent 和 Devin 兩款“AI 程式員”應用(詳見我們的相關報道),你認為它們所做的事情符合所謂的“智能推理”嗎?如果這種推理能夠擴大規模,我們是否能實作 AGI?還是說,我們仍需要在強化學習或其他技術探索更多途徑,才能實作 AGI?

目前這些“AI 程式員”應用的任務完成率仍徘徊在人類水準的 13% - 14% 左右,是以我很好奇,要怎樣才能讓它們的完成率提升至99%。

Misha Laskin:它們無疑符合智能體的定義。不過,它們的能力仍在發展中,或許尚未達到高度可靠性的階段。大多數人如今在談及語言模型背景下的智能體時,想到的是基于提示的智能體。也就是說,你利用一個模型,對其進行提示,或設定一系列的提示,讓模型能夠執行任務,進而讓任何人能夠借助語言模型,從零起步,建構出某種功能。我認為這是非常有意思的。然而,我認為這種方法的潛力有限。

我認為這恰恰是一個例子,展示了《苦澀的教訓》是如何适用的。因為引導智能體并嚴格訓示其按特定路徑行動,這正是我們植入模型中的啟發式算法,我們希望通過這種方式提升智能體的智能水準。我的意思是,自從深度學習時代以來,智能體的每一次重大進步都表明,通過學習和搜尋,許多人為設定的規則逐漸被取代。我認為提示的主要作用在于明确目标。是以,你始終需要給出提示。你總得告訴智能體應該做什麼。但是,一旦你偏離這一初衷,将提示作為控制智能體行動軌迹的手段,實質上是在代替智能體思考,告訴它 “好了,現在你隻需要去這裡,執行這項任務。” 我認為這種做法終将被淘汰。我認為這僅僅是我們目前面臨的一種過渡現象。未來的系統,我認為将不再依賴于這種方式。

主持人:是以,核心在于,思考與規劃都應當在 AI 系統内部進行,而非停留在提示層面,以避免遭遇發展瓶頸。

Misha Laskin:我們應當盡可能地将決策權交給 AI 系統本身。再次強調,這些語言模型從未經過智能體行為的專門訓練。它們接受的訓練是為了促進聊天交流和預測網絡上的事件。能夠僅通過提示就讓模型展現出一定的功能,這幾乎可以稱為奇迹。

然而,有趣的是,一旦你能夠通過提示讓智能體展現出一定的功能,這實際上為強化學習算法提供了最佳的起點。強化學習算法的作用在于強化正面行為,抑制負面行為。如果你面對的是一個完全無所作為的智能體,那麼就不存在可以強化的正面行為。是以,算法也就無從發揮作用。這就是所謂的“稀疏獎勵問題”。如果你從未觸及獎勵,也就是說,從未完成任務,那麼就沒有任何可以從中學習的内容。

但是,如果你已經通過提示讓 SWE-Agent 或類似的智能體那樣,任務完成率達到了 13%,那麼就擁有了一種最低限度的能力,可以借此強化那些真正優秀的性能。

現在,資料成為了我們面臨的挑戰。我們要從哪裡擷取訓練所需的提示集合?從哪裡擷取運作這些智能體的環境?雖然 SWE-Agent 自帶運作環境,但針對許多問題,你需要自行考慮這些問題。也許最大的難題在于,如何以可擴充的方式驗證一項任務是否被正确完成?當你了解任務的來源,通常這源于産品需求,這是可以解決的。在哪裡運作它們?要采用什麼算法?但真正的問題在于,如何選擇運作環境?更為關鍵的是,如何以可擴充的方式驗證任務是否正确完成?我認為,這就是打造智能體的秘訣所在。

主持人:我覺得這确實觸及到了當今智能體領域核心的問題所在。為了稍微鋪墊一下 Reflection AI 公司正在努力解決的問題,你如何看待目前智能體市場的大體狀況呢?我認為許多人往往高估了我們現有模型的能力。那麼,你認為問題出在哪裡?你為什麼認為目前圍繞智能體的各種嘗試未能達到我們今天的期望?

Misha Laskin:我們可以從一個角度來定義或分類所謂的“AGI”,或許我将使用“泛化智能”這一術語,因為“泛化”這個詞在這裡指的是能力的廣度。是以,一個真正的泛化智能不僅需要具備廣泛的應用範圍,能夠執行多樣化的任務和處理各種輸入,同時它還需要在任務的深度上有所建樹,即能應對高度複雜的任務。

AlphaGo,這個在圍棋領域擊敗人類頂尖高手的著名 AI,可能是迄今為止建構的最專業的智能體。然而,它的專長僅限于圍棋,無法觸及其他遊戲,如井字遊戲。

相比之下,目前的系統,諸如 Gemini、Claude、ChatGPT 等語言模型,則呈現出另一種趨勢。它們在任務的廣度上表現得異常出色,但在深度上則顯得力不從心。它們在衆多領域展現了驚人的多功能性,這無疑是一項奇迹。曾經,我們在這個領域中似乎找不到通向泛化智能的明确路徑,而現在,這些模型的出現為我們指明了方向。

但我們目前正處于光譜的另一端,即在廣度上取得了顯著進展,尤其是在最新一代的模型如 GPT-4o 和最近的 Gemini 系列模型中,這些模型具備了多模态了解能力,它們能在同一層面了解和處理圖像、音頻等多種資訊,就像它們了解語言一樣。

這就是所謂的“廣度”。但在整個過程中,深度這一關鍵點卻未得到充分重視。網際網路缺乏關于連續思考過程的真實資料。為了彌補這一缺陷,研究者們嘗試在具有類似結構的資料集上進行工作,如數學、程式設計資料集,希望通過這些資料集提升模型的邏輯推理能力,即模型是否能夠解決數學問題。然而,即便如此,這依然沒有從根本上解決深度問題。我認為我們需要一套方案,一種能夠普遍适用于各種任務類别的方法,通過大量的訓練資料,使語言模型在特定任務上逐漸增強其能力。

在我看來,現在迫切需要的是解決深度問題。盡管整個領域,尤其是大型實驗室,已經取得了在廣度方面的巨大突破,這确實令人振奮,也為市場帶來了諸多實用價值。但同時,深度問題的解決也同樣重要。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

後訓練階段的三道核心難題

主持人:接下來深入探讨一下你與 Ioannis 在 AlphaGo、AlphaZero 及 Gemini 項目中的獨到見解,以及後訓練階段和資料在其中扮演的重要角色。能否分享一下這些經驗是如何塑造你獨特的視角,進而揭示出通往高效智能體能力的道路?

Misha Laskin:語言模型給我帶來的驚喜之一在于,它們與目标之間往往隻有一步之遙 —— 即便它們并非完全專注于你所期待的任務,但實際上它們似乎隻需稍加引導就能發揮更大的作用。語言模型需要在實際情境中找到更牢固的立足點,而這一洞察引領它們在聊天領域展現出卓越性能。你可以與它們交流,盡管它們偶爾會顯得不夠可靠,有時會偏離正軌,但它們幾乎能成為理想的聊天伴侶。由此,引出了一個關鍵問題:如何将預先訓練的語言模型轉化為穩定可靠的聊天助手?

這裡所謂的“穩定”,衡量标準在于使用者偏好:與這類聊天助手互動的人們是否更傾向于選擇它,而非其他聊天助手或其早期版本?如果目前版本相較于過去幾個疊代版本更受使用者喜愛,那就可以肯定模型已經取得了進步。而這一進步源于資料的收集。具體來說,就是收集使用者在聊天視窗中輸入的各類查詢,模型産生的回應,以及對這些回應進行的有效排序,進而促使模型更傾向于産出使用者更青睐的回應。

當我們談及排序,這個排序機制又是如何形成的呢?它源自人類。可能是由人類标注員完成,或者直接嵌入産品設計之中。你可能曾在 ChatGPT 中見過“點贊”或“踩”的選項,它會收集你的回報,以此了解你的喜好傾向。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

這些資料被用于調整模型,使其更加符合使用者的偏好。這是一種極為通用的算法,屬于強化學習的一種,是以被稱為 RLHF(基于人類回報的強化學習)。這僅僅是在增加那些被人類回報所偏愛的事物的權重。我們沒有理由認為,同樣的方法不能用于培養更可靠的智能體。

當然,還有許多其他挑戰亟待解決。我認為之是以如此艱難,原因在于一旦涉足智能體領域,面臨的挑戰遠遠超過簡單的語言輸出。智能體需要與各種工具互動。比如,無論是發送電子郵件,還是在 IDE(內建開發環境)中工作,智能體在任何環境中執行任務,都需要借助工具。它依賴于環境的存在。每位部署智能體的人士都會将其置于不同環境中。是以,如何與這些環境無縫對接,以及如何将智能體成功引入這些環境,構成了巨大的挑戰。

我認為這就是為何涉足這一領域的工作會顯得有些吃力。我們必須謹慎對待環境的選擇,以及建構智能體的方式。因為我們不想讓智能體過于依賴某一特定環境。從概念上來講,這與為聊天目的調整模型的過程相似。隻是在過程中,還需要克服一些額外的內建障礙。

主持人:既然你把 AlphaGo 看作是智能的裡程碑,我想你正在努力用大語言模型(LLMs)複刻出一個“AlphaGo 時刻”。那麼,你認為兩者之間有什麼差異?在我看來,圍棋這類遊戲有着清晰的獎勵機制,能夠自我博弈,就像 RLHF 一樣。你認為這足以讓我們在大語言模型領域實作 AlphaGo 那樣的突破嗎?或者,我該如何了解兩者間的不同之處?

Misha Laskin:我認為你說的缺乏真實獎勵作為标準是關鍵所在,或許這是最核心的一點。我們從以往的強化學習研究中得出,如果擁有一個真實可靠的獎勵信号,就幾乎可以確定成功。許多令人矚目的項目已經證明了這一點,它們以前所未有的規模展現了這一成果。

除了 AlphaGo 之外,還有 DeepMind 的 AlphaStar。AlphaStar 可能對于非遊戲玩家而言有些陌生,但作為曾經的《星際争霸》玩家,AlphaStar 給我的震撼至今猶存。AI 在當時展現出的政策,就像是一個比我們更加智慧的外星人,在地球決定玩一局遊戲,然後徹底超越了人類的表現。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

這一切的背後,存在着多種因素,但真實獎勵的設定對于精準行為控制至關重要。如今,不論是人類的喜好或是智能體的決策,我們都缺乏這樣的基準。這些都是廣泛而模糊的目标,我們沒有确定某事是否達成的标準。例如,對于程式設計任務,如何界定它是否正确完成?即使它通過了一些單元測試,也可能存在缺陷。這是一個極其複雜的問題,我認為這是智能體領域面臨的核心難題。當然,還有其他挑戰,但這無疑是最大的障礙。對于聊天機器人而言,繞過這個問題的方式再次是通過 RLHF,即訓練獎勵模型。

獎勵模型是一種語言模型,它預測某項任務是否被正确執行。盡管這種方法行之有效,但挑戰在于,當沒有确切的基準時,面對不完美的資料,它可能産生偏差。

人類的政策,也就是智能體,很快就會變得足夠聰明,發現獎勵模型中的漏洞并加以利用。舉個例子,在聊天機器人中,假設你發現它輸出了一些不當内容,或者有些話題它不應該涉及,因為它們可能很敏感。于是,你在訓練資料中加入了相關示例,其中聊天機器人會說:“抱歉,作為語言模型,我無法回答這個問題。”

然而,用這些資料訓練的獎勵模型,可能隻看到了這類情況的正面效果,而沒有考慮機器人實際回答敏感問題的情形。這就意味着,獎勵模型可能誤判,認為永遠不回答使用者的提問是正确的選擇。因為它的學習隻基于不回答問題的正面案例。當你依據這個模型訓練時,政策或語言模型會在某個階段變得足夠智能,意識到隻要不回答問題就能獲得高分,不論何時回避問題,都能得到高評價。最終,它可能退化成一個永遠不回應你問題的語言模型。

這正是這一過程的微妙之處,也是難點所在。我确信,許多與 ChatGPT 或 Gemini 這類模型互動過的使用者,在實際使用中可能發現了它們有時會出現退步。它們突然不再像之前那樣頻繁回答問題,某些方面的能力下降,或者表現出政治立場的偏頗。我認為,這些問題很大程度上源于資料的局限性,而這些局限性被不良的獎勵函數放大了。是以,我認為這是目前面臨的最大挑戰。

主持人:如果我們将大模型訓練流程或大型 AI 系統訓練流程的概括為「預訓練」(Pre-Training)和「後訓練」(Post-Training)兩個階段,我認為預訓練階段在很大程度上已經取得了突破,就像是我們已經掌握了核心技術,現在正處于競速擴大規模的階段。

而後訓練階段仍然更像是處于探索期,大家仍在嘗試尋找那些能在總體上奏效的技術。我想知道,你是否認同這樣的觀點。在一個理想的狀态下,預訓練主要承擔什麼任務?我們應該如何了解它?後訓練又扮演着怎樣的角色?我們應當怎樣像給五歲孩子講故事一樣,簡單地解釋這一點?

Misha Laskin:我贊同你的看法,預訓練确實已經發展成為一個包含諸多細節的複雜工程,絕非輕而易舉。這是一項充滿挑戰的任務,但到了現階段,它已經成為了一個相對成熟的領域。我思考預訓練的一個方法是,把它與 AlphaGo 相比,這樣了解起來既直覺又清晰,因為它不是讓你去想象那個龐大的網際網路概念,而是聚焦于一個具體且幹淨的場景 —— 這個遊戲本身。

我們可以将 AlphaGo 視為經曆了兩個階段。

首先,它經曆了一個模仿學習階段,神經網絡在此階段模仿了衆多圍棋高手的精湛技藝。随後進入強化學習階段。我們可以把預訓練看作是 AlphaGo 的模仿學習階段。在這個階段,模型僅僅是學會了遊戲的基本玩法。這時,模型的神經網絡可能還稱不上世界頂尖,但它已經具備了一定的實力。它從一無所知到逐漸掌握技巧,實作了質的飛躍。對于語言模型而言,預訓練就是從零開始,在各個領域逐漸達到一定的熟練度,這也正是它威力無窮的原因所在。

至于後訓練階段,我認為它扮演的角色是鞏固和優化良好行為。具體來說,在 AlphaGo 的訓練中,模型首先進行模仿學習,從一個能夠完成基礎任務的起點開始,也就是說,模型有了一個能夠進行遊戲的神經網絡。然後,模型将另一個關鍵步驟——強化學習應用到這個網絡上,讓網絡能夠自主制定計劃,通過遊戲實踐來擷取回報,好的行為得以強化。這正是我所說的後訓練,

從聊天機器人的角度來看,這是在不斷加強模型在對話方面的良好表現。有趣的是,訓練 AlphaGo 和訓練 Gemini 的進階政策實際上是相通的,非常奇妙。現在大多是先經曆模仿學習階段,接着是強化學習階段。與我們現在擁有的這種方式相比,AlphaGo 的強化學習階段顯然更為精妙,而這背後的原因在于獎勵模型的性質。如果獎勵模型存在噪聲且容易被政策利用,那麼在政策變得足夠智能并找到繞過它的方法之前,你能做的其實十分有限。是以,即使你運用了最先進的強化學習算法,比如 AlphaGo 中采用的蒙特卡洛樹搜尋,其效果可能并不顯著,因為政策會在算法有機會進行深入探索之前,就找到了獎勵模型的漏洞,導緻政策陷入一種低效的狀态,即政策僅僅學會了如何“欺騙”獎勵模型,而沒有真正提升自身能力。

設想一下,在下棋時,你試圖提前規劃幾步走法,但如果每一步的判斷都有偏差,那麼提前規劃十步其實是沒有意義的。我認為,這正是我們在 RLHF 中所面臨的現狀。

有一篇我認為被嚴重低估的重要論文,題目叫做“獎勵模型過度優化的擴充規律”。這是來自 OpenAI 的一篇研究論文,專門探讨了這一現象。有趣的是,它揭示了這一問題在各種規模上都普遍存在。我的意思是,在那篇論文中,他們嘗試了多種不同的 RLHF 算法,無論哪種算法,這種現象都無一例外地出現了。我認為這是一篇極具價值的論文,因為它觸及了後訓練階段的核心難題。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

論文連結:https://arxiv.org/pdf/2210.10760

主持人:如果參考 AlphaZero 的成果,那我們或許根本無需預訓練。這樣的結論是否恰當?

Misha Laskin:我認為,至少依據我的了解,AlphaGo 的模仿學習階段是不可或缺的,主要是出于實用性的考量。當 DeepMind 從 AlphaGo 過渡到 AlphaStar 時,并沒有出現 AlphaStar 的 AlphaZero 版本,後續也沒有推出 AlphaStar Zero 或類似的項目。AlphaStar 的一個重要組成部分,是跨越衆多遊戲的模仿學習。我認為,AlphaGo 之是以特殊,不僅因為它是一個零和遊戲,而是因為圍棋能夠較快地結束遊戲程序,進而及時獲得回報,判斷行動是否得當。

主持人:看來,這是一個範圍過于寬泛的問題,無法直接套用到所有情況。

Misha Laskin:是的,如果在所有領域都存在真實可靠的獎勵函數,AlphaZero 理論上能夠全面适用。然而現實中沒有這樣的條件,是以需要先開展模仿學習階段。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

離職創業的原因:

“AGI 還有三年到來,緊迫感促使了我們離開”

主持人:你之前強調了從技術層面把智能體置入環境之中的重要性。而從産品分發推廣到使用者的角度,思考使用者首次與智能體互動時适合的任務類型也很關鍵。在你心裡,都有哪些任務類别呢?你覺得使用者在日常工作中該怎樣運用這些代理的潛力?

Misha Laskin:如果你(假設“你”是一名産品經理)想在深度方向取得進展,可以首先嘗試 AlphaGo 這樣的硬骨頭,這是一個非常艱難的事情。我建議以同心圓的方式,在你能夠處理的任務的複雜程度上向外拓展。我們專注于實作深度賦能,并且是以這種同心圓的方式。我們非常在意擁有一個通用的方案,它不會繼承某些特定任務特有的啟發式方法。是以從研究的角度來說,我們正在為此建構通用方案。

現在,你必須把這些方案落實到具體事物上,以展示其進展。至少對我們而言,展示環境的多樣性很重要。是以我們正在考慮多種不同類型的智能體,比如網絡智能體、編碼智能體、作業系統計算智能體。對我們來說,重要的是展示自己能夠擁有為智能體賦能的通用方案。

主持人:話題稍作轉變,你們正在尋找哪些人才加入團隊?

Misha Laskin:确實,我們很幸運能夠從行業内頂尖的人工智能實驗室吸引到一些人才。這很大程度上得益于 Ioannis 和我所做的工作,但更多的榮譽應歸于 Ioannis 和他的聲譽。

就像我觀看的邁克爾·喬丹的紀錄片中所展現的,邁克爾·喬丹之是以如此高效,一個關鍵原因在于他作為個人對比賽的傑出貢獻,他是曆史上最出色的籃球運動員,(即使隊友們無法完全達到),他也還是激勵了隊友們去達到自己的高度。

Ioannis 對科技圈的人就有這種激勵效應。在 Gemini 項目中,我和他密切合作,他對我産生了同樣的影響。盡管我不确定自己是否能達到 Ioannis 的水準,但我一直向往着,這一過程無疑使我成為一名更優秀的工程師和研究者。我認為這就是吸引衆多人才加入的原因之一:你可以從他身上學到很多。我們主要仍在持續尋找人才,我們的招聘步伐并不急促,而是采取更為審慎和系統的方法。

我們正積極招募其他研究人員和工程師加入我們,共同推進這項使命。我想說,所有加入我們的人都有一個共同的特點,那就是我們都懷揣着強烈的渴望,也許可以用“熱忱”來形容。我們本可以留在 DeepMind,繼續推動智能體技術的發展,但我認為我們選擇自行創業的根本原因,在于我們相信這樣可以更快地取得進展,更迅速地應對挑戰。這種緊迫感源于我們堅信一個事實:距離實作類似 AGI 的目标,僅剩大約三四年的時間。

我所說的 AGI,指的是通用智能體,即具備廣博且深厚知識體系的實體。這意味着我們正處于一個異常加速的程序之中。這種緊迫感也部分源于 AlphaGo 案例的啟示。AlphaGo 曾讓領域内的專家懷疑,人類水準或專業級的圍棋競技還需數十年才能實作,然而 DeepMind 卻在短短數月内就取得了突破性進展。我認為我們在語言模型領域也見證了相似的加速趨勢。

有些人可能會持有這樣的觀點,認為我們已觸及了所能達到的極限,正處在S曲線的末端,但我們并不認同。我們認為,我們仍處于指數增長的階段。其中一個重要原因是,這些模型過于龐大且訓練周期漫長,以至于整個研究和工程界尚未對其進行充分優化。若要運作最大的模型,需要耗費數月時間及數十億美元,那麼你能實際執行的實驗數量究竟有多少呢?是以,我們觀察到事物正以前所未有的速度發展,我們認為解決深度了解和可靠性的問題并未獲得應有的重視。

在那些大型企業中,确實存在一些團隊将其視為邊緣任務,但我認為,解決這一問題需要一個全心投入的實體。

主持人:說到 DeepMind,那麼再過三年,我能擁有一個替我寫備忘錄的智能助手嗎?

Misha Laskin:但願如此。

主持人:三年以内。

Misha Laskin:是的,我其實認為備忘錄的自動化可能會來得更快。

主持人:這是我最關心的問題之一。這到底是幾十年後的願景?還是幾個月後就能實作?聽你這麼一說,好像你們距離實作它隻有幾個月到幾年的時間了。

Misha Laskin:我覺得是幾年之内。說實話,這個領域的進步速度真的讓人有點吃驚。在深度和可靠性方面,也是如此,我的意思在于,可靠性就意味着安全性。是以你希望這些系統是安全的。我認為有很多非常有趣的研究,例如 Anthropic 近期釋出的一篇關于機制可解釋性(mechanistic interpretability)的論文,那一系列的研究方向确實很有意思,而且我認為它已經開始顯示出一定的實用價值,比如在模型中識别并抑制那些“Lie Neurons”,或是其他你想要控制的元素。但在我看來,安全性就是可靠性。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

論文連結:https://www.anthropic.com/research/mapping-mind-language-model

如果某個程式在你的電腦上四處亂竄,破壞各種事物,那就意味着系統的不安全。或許這可以被視作一種功利主義的安全觀,即你隻希望這些系統能穩定工作,按照你的意圖行事,而不是違背你的意願。

主持人:這麼說,除了寫備忘錄,我還有幾年的時間去找一個新的興趣愛好。

Misha Laskin:是的,或者也許你會有一支由 AI 組成的實習生隊伍,他們能幫你完成所有研究工作。

主持人:我迫不及待想看到這一天。回到 Reflection AI 這家公司,如果一切進展順利,你對 Reflection AI 有着怎樣的憧憬?

Misha Laskin:這個問題可以從兩個角度來看。首先,我們之是以投身于此,是因為這是目前時代科學的核心難題。我們是科學家,這也是我們對此充滿熱情并全情投入的原因。

事實上,你有機會參與一場可能是史上最激動人心的科學探索之旅,達成建構通用智能體的目标。你擁有了在電腦上運作的高度安全、可靠的數字代理。它們能夠承擔起那些乏味的工作,那些你未必想親自處理的任務。

你可能會想,這是否意味着人們将不必投入太多時間在工作上。但我不認為人類對于創造和貢獻的需求會改變。我認為,每個人能夠創造和影響世界的能力将會顯著提升。

以我的工作為例,作為一名研究人員,有許多我花費時間去做的事情,而一個更為智能的 AI 可以協助我加速達成我們的目标。這聽起來有點像是循環論證。但如果我們的 AI 接近于真正的數字 AGI,我們将能更快地解決數字 AGI 問題。這是一個角度。

我認為另一個角度則是從使用者的角度出發。我們在電腦上執行的很多操作,你可以把電腦看作是我們接觸的第一款數字工具,就如同過去人們使用的錘子、鑿子和鐮刀一樣。我認為我們正邁向超越這一層面的階段,不再需要你去學習如何精準地使用所有這些工具,也不必花費大量時間在上面,這實際上是在剝奪你實作個人目标的時間,而是有了這些極為有用的代理,

它們能協助你實作任何你設定的目标。我認為這十分令人振奮,因為我認為我們個人目标的雄心正在不斷膨脹。在局部意義上,軟體工程師現在借助這些工具可以完成更多工作。

但這僅僅是開端。我認為我們将能夠為自己設定更為宏偉的目标,為想要實作的事物設定更高的标準。僅僅因為我們能夠将許多必需的工作委托給這些系統。是以,這些是我真正感到興奮的方面。

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相

離職創業的原因:

“AGI 還有三年到來,緊迫感促使了我們離開”

主持人:我們用幾個問題來收尾,這些問題是我們喜歡向每位嘉賓提出的,關乎人工智能的現狀。首先,對于未來一年、五年乃至十年,你在自己的領域内,或是更廣泛的人工智能領域中,最期待的是什麼?

Misha Laskin:我有許多期待的事情,但最先浮現在腦海的是最近有關機制可解釋性的研究工作。AI 模型往往被視為黑箱,如何深入探索,就像了解語言模型的神經科學,如果将它們比作大腦,這仍然是一個未解之謎。這項研究正展現出前所未有的進展,它不再局限于簡單的實驗環境,而是觸及到模型核心的運作原理。

可以說,這正是語言模型的神經科學,我覺得這是一個非常吸引人的研究領域,值得我們深入挖掘。更廣泛地講,如果我置身于學術圈,我可能會專注于人工智能的科學研究。這包括人工智能的神經科學,但遠不止于此。還有許多其他領域值得探索,比如,究竟哪些因素真正決定了模型的擴充規律,無論是從理論角度,還是從實踐層面,我們如何調整資料組合?也許我們可以将視角拉回到 19 世紀末的實體學時代。那時,電力被發現,但其背後的原理尚不明晰,盡管存在大量的實證結果,卻沒有相應的理論架構來支撐,導緻了解上的局限。随後,一系列簡潔而有力的理論模型應運而生,它們極大地促進了現象的了解。

這一過程激發了後續的實驗突破。在我看來,人工智能科學目前正處于相似的轉折點,我對它的未來發展充滿期待。這真是一個引人入勝的話題。

主持人:在人工智能領域,你最敬仰的人物是誰?

Misha Laskin:當面對這類問題時,多數人或許會立刻提及某個響亮的名字。但我想強調的是,我所真正敬佩的人,是那些我有幸共事,并且見證了他們工作方式的人。在人工智能領域耕耘多年,有幾位這樣的人物深深觸動了我。其中一位便是 Peter Abbeel,他以超凡的效率營運,這一點自我們相識以來便給我留下了深刻印象。

研究工作往往被視為一種創意的追求,但 Peter 教會了我,營運能力和效率同樣至關重要。他不僅極具創新精神,他的實驗室也孕育了諸多創新成果。然而,我認識到,這些偉大成就的背後,需要的不僅是全力投入,更是高度的專注和努力。他以我所經曆過的最緊湊的時間表,管理着實驗室,確定每個項目都能得到精準聚焦。

是以,我對他懷有深深的敬意,不僅僅因為他的工作跨足多個領域,從強化學習到無監督學習、再到生成模組化,他都取得了非凡的突破。更重要的是,他擁有識别并培養人才的獨特能力。在他的實驗室中,彙聚了一群獨立思考者 —— 學生、博士生,每個人都緻力于追求自己的興趣,而彼得就像是一個傑出的催化劑,幫助他們發現并專注于真正重要的核心。

我還想提及另外兩個人,其中一位是我的 DeepMind 經理,Vlad Mnih。他不僅是一位傑出的科學家,更是一位極具創新力的上司者,作為 DQN 論文的第一作者,他定義了強化學習的兩大算法,A2C 和 A3C。在深度強化學習領域,他既是先驅,也是開拓者。他的力量在于他的仁慈與以人為本的态度,盡管成就斐然,卻保持着謙遜的品質。Ioannis Antonoglou 亦是如此,他具備如同邁克爾·喬丹般的激勵力量,與他共事,總能激發出個人最佳的表現。

早期的團隊雖小,但成員們為了共同的目标而不懈努力,這一切很大程度上歸功于 Ioannis 的鼓舞與引領。這些人是我真正敬仰的榜樣。感謝你讓我有機會分享這些故事。

主持人:聽到你對每個人說的話,真是太有趣了。我常跟 Peter Abbeel 說,他近幾年就像是在建立一個創始人黑手黨,而他自己是“教父”。這可能是因為他教會了他們如何做很多事情,同時,這裡存在着一種自我篩選的過程,那些富有創意和獨立思考者自然而然地聚集在他的實驗室。但他同時也教會了他們如何高效營運,如何保持極度專注。這絕非偶然,而是他有意為之的布局。

最後一個問題。對于正在建立人工智能公司的創始人,你有哪些建議?你剛剛踏上新的征程,我相信你也曾向他人尋求過指導。你會向新一代創業者傳遞怎樣的建議?

Misha Laskin:我認為,幾年後,我将能站在更高的位置,給出更有深度的答案。不過,我可以分享我在前一次創業中學到的一課,那家初創企業與人工智能無關。那就是,專注于那些對你而言真正重要的内部驅動力,幾乎不被外界環境所左右。即使在遭遇困境時,你仍能找到樂趣,因為圍繞這個問題,有一種源自内心的驅動力,獨立于外部世界的一切。而這對你來說,就是真正的興趣所在。

我之是以這樣講,可能是因為人工智能如此迷人,高度發達,是一項前沿科技。是以,有人想要直接利用它,探索我們能達成的極限。我認為,如果沒有一個堅定的内心指南針,獨立于人工智能之外,你永遠無法在艱難時刻找到自己的方向。也就是說,你需要清楚對你而言什麼是最重要的,你想要實作什麼。基于我以往的經驗,這是我會選擇不同做法的地方,也是我願意給予的建議。

主持人:我非常欣賞你的見解。我常常思考的一句話是,在自己的舞台上綻放光彩,不要被别人舞台上的華美和光芒所迷惑。你需要那種發自内心的激情和堅韌,對鑽研問題的癡迷,才能度過所有艱難的時刻。

Misha Laskin:是的。我認為這其中蘊含着更深層次的意義,如果你真的關心某個問題,你也會關心你正在為之服務的客戶。如果不在乎你的客戶,将使你陷入困境。是以,我認為這種情感必須源自内心深處,這不是你可以随意控制的,比如你關心誰,不關心誰。這是一種個人的情感選擇。如果它與你内心的意願不相契合,你就無法強迫自己出于必要去關心某件事。

參考資料:https://www.sequoiacap.com/podcast/misha-laskin-reflection/#mentioned-in-this-episode

“AGI 隻需 3 年時間就能實作!” DeepMind 大神離職創業,最新萬字訪談透露真相