Gemini:不止是雙生團隊的融合,更是雄心勃勃的未來計劃。
作者丨劉潔
編輯丨岑峰
“最開始我就知道谷歌相當有希望,谷歌能發展到現在的規模不過是水到渠成。”
這位谷歌首席科學家在谷歌度過了近乎一半的人生,對谷歌的喜愛不減反增,到現在還依然堅守着谷歌最初的願景并為此奮鬥:
組織全球資訊并使其普遍可用和有用
Jeff Dean 還記得剛加入谷歌的時候,每到周二的流量高峰期就開始擔心系統會不會崩潰,還好後來及時增加了裝置,對代碼和搜尋功能做了更多優化,谷歌搜尋這才步入了正軌。
後來吳恩達在谷歌擔任顧問,Jeff Dean 和他商定了大型神經網絡的研究目标,最終促成了 Google Brain 團隊的成立。
2011年,伴随着質疑和不信任,Google Brain 終于成功訓練出比當時其他模型大 50 到 100 倍的神經網絡。
而在同一時期的大洋彼岸,DeepMind 的研究才剛剛開始。
Jeff Dean 想做的一直都是高品質、大規模的多模态模型。當時的 DeepMind 和 Google Brain 有着類似的研究目标,隻是選擇了強化學習和模型擴充兩個不同的方向。
收購DeepMind後,Jeff Dean 推動了兩大團隊的融合,Google DeepMind 應運而生。
強強聯合之下,Google DeepMind 交出了一份令人滿意的答卷,Gemini。
Gemini 的優勢不止在于多模态,更在于“化繁為簡”的思路。
受益于底層的Transformer架構,Gemini 能夠并行處理大量資料,相比傳統遞歸模型,提升了 10 到 100 倍。更重要的是,Gemini 能把不同類型的資料通過抽象轉換為相同的高維表示,把表面意思及其以外的聯合意義和表示整合起來。
舉個例子,Gemini 不僅能識别“牛”這個詞語,還能發散到和牛有關的語音、圖檔等等其他内容,反過來輸入這些相關的内容也能觸發 Gemini 對“牛”的多層次了解。
對使用者來說,一切都變得簡單、直覺。
無需切換工具或者輸入形式,使用者就能通過文字、語音、圖檔等方式與系統互動。
而系統也會自動整合各種輸入方式,生成最直覺、最易于解讀的結果。文本可以轉化為圖像,圖像也可以轉化為語音,文字與圖像的融合也能自動實作。
對開發團隊來說,這一技術的實作非常複雜,但Gemini 依然成功突破了這些挑戰。
然而,Jeff Dean 的雄心遠不止于此。他現在緻力于開發更深入人們生活的人工智能工具,涵蓋從日常助理到醫療、AI教育等多個領域。
多模态模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信,從過去到未來,這一領域将持續表演出巨大的潛力和希望。
前幾天,Jeff Dean 做客 DeepMind 播客,講述了他和谷歌的這段過去、DeepMind與Gemini背後的故事,以及自己對多模态模型的探索和了解。
完整播客視訊可以點以下連結觀看:
https://www.youtube.com/watch?v=lH74gNeryhQ
AI科技評論摘取了部分播客内容,做了不改原意的精編處理:
1
90年代的谷歌
Hannah Fry:你在谷歌工作了 25 年,早期的谷歌是什麼樣的?90 年代剛加入的時候,是不是大家的筆記本上貼滿了貼紙,穿着人字拖在程式設計?
Jeff Dean:那時沒有筆記本,我們用的是大 CRT 顯示器,占了很多桌面空間。我那時的桌子其實是一扇門架在兩隻馬凳上,你可以站在桌下,用背撐起來把桌子調高。
我剛開始工作時,我們的辦公室很小,大概隻有這個房間的三倍大。
Hannah Fry:整個谷歌?
Jeff Dean:整個谷歌。那時,我們在帕洛阿爾托大學大道上的一個小辦公室裡,正好在現在的T-Mobile手機店上面。那時候真的非常激動,盡管我們是個小公司,但看到越來越多人使用我們的高品質搜尋服務真的很興奮。流量每天和每周都在不斷增長。
我們一直在努力避免每周二中午的流量高峰時系統崩潰。這需要我們迅速增加計算機資源,優化代碼提高速度,并開發新的功能,讓相同的硬體能夠服務更多使用者。
Hannah Fry:有沒有哪個時刻讓你們意識到——這個公司真的會變得很大?
Jeff Dean:我想,從我剛加入公司的時候,你就能看出來流量增長非常快。
我們覺得,隻要專注于提供高品質的搜尋結果,快速滿足使用者需求——我們其實希望使用者能盡快離開我們的網站,找到他們需要的資訊——這是一個很成功的想法。
使用者似乎也喜歡我們的服務,是以從最開始就看起來相當有希望。
Hannah Fry:從“相當有希望”到最後的發展規模之間差距不小。你感到驚訝嗎?
Jeff Dean:确實,我們的領域擴充确實難以預料,比如自動駕駛汽車。我們的産品組合逐漸拓寬,從最初的搜尋引擎到現在的各種産品,例如通過Gmail幫助使用者管理郵件。
這種擴充是自然的,因為它們解決了實際問題,讓我們不僅僅擁有一個産品,而是擁有了使用者日常使用的多種産品。
Hannah Fry:回顧這麼多年的發展,你覺得谷歌始終是一個搜尋公司,還是實際上它是一個 AI 公司,隻是裝作是個搜尋公司?
Jeff Dean:我認為公司解決的許多問題實際上都依賴于 AI。在這25年的曆程中,我們逐漸攻克了一些複雜的AI問題,并不斷取得進展。
雖然谷歌一開始專注于搜尋,但我們不斷将這些新的 AI 技術應用到搜尋和其他産品中。是以,可以說我們一直在利用 AI 推動公司的發展。
Hannah Fry:你認為谷歌未來會一直是一個搜尋公司嗎?或者說,它現在是否仍然是一個搜尋公司?它正在發生改變嗎?
Jeff Dean:我非常喜歡谷歌的一點是,即便 25 年過去了,我們的使命依然非常有意義——“組織全球資訊并使其普遍可用和有用”。
我認為,Gemini 幫助我們在了解各種資訊方面邁出了重要一步——包括文本資料和軟體代碼(它也是一種文本,隻是更複雜)。我們不僅能閱讀文本,還能通過視覺和聽覺接收資訊。
我們的目标是讓模型能夠處理各種輸入形式,并生成相應的輸出,例如文本、音頻、對話、圖像或圖表。
我們真正想創造的是一個能夠處理所有這些模式并根據需要生成輸出的模型。
2
神經網絡的早期探索
Hannah Fry:你還記得你第一次接觸神經網絡的情景嗎?
Jeff Dean:是的,當然。神經網絡有着一段有趣的曆史。
AI 其實是一個非常古老的學科,AI 的早期階段是在研究如何定義事物運作的規則。那是在20世紀 50、60、70 年代左右。
神經網絡大約在 70 年代出現,在 80 年代末和 90 年代初掀起了一陣熱潮。
實際上,我在 1990 年是明尼蘇達大學的大學生,當時我在上并行處理課程,這個課程探讨的是如何将一個問題分解成可以在不同計算機上并行處理的部分,讓這些計算機協同工作來解決一個問題。
Hannah Fry:我猜那時候的計算能力還不如現在那麼強大,你們是怎麼讓計算機協同工作的?
Jeff Dean:神經網絡是一種特殊的機器學習方法,它通過模拟人腦神經元的工作原理來進行學習。每個人工神經元與下層的其他神經元相連接配接,分析接收到的信号,然後決定是否将信号傳遞到更高層次。
神經網絡由多個層次的人工神經元組成,高層神經元通過分析下層神經元的信号進行學習。
例如,在圖像識别任務中,最底層的神經元可能學習到基礎特征,比如顔色斑點或邊緣;下一層則可能識别出具有特定顔色邊框的形狀;更高層的神經元可能識别出這些形狀組成的具體物體,如鼻子或耳朵。
通過這種逐層的抽象學習,神經網絡能夠發展出非常強大的模式識别能力。這也是1985至1990年間人們對神經網絡充滿興奮的原因。
Hannah Fry:不過我們說的是非常非常小的網絡,對吧?
Jeff Dean:是的,非常小的網絡。是以它們無法識别出人臉或汽車這樣的東西,隻能識别一些人工生成的簡單模式。
Hannah Fry:就像一個網格,可能能識别出一個十字形之類的東西。
Jeff Dean:或者手寫的數字,比如這是一個 7 還是 8。
那時候的确算是很了不起了。但它們的能力僅限于解決這種問題,而那些基于邏輯規則的系統,比如如何定義一個“7”,其實在處理各種淩亂手寫體時表現得并不太好。
是以我在聽了兩堂關于神經網絡的課後覺得很有興趣,決定把我的畢業論文主題定為神經網絡的并行訓練。
我認為隻需要更多的計算資源就能有所突破。于是我想,何不利用系裡那台 32 處理器的機器來訓練更大的神經網絡?這就是我接下來的幾個月所做的事情。
Hannah Fry:結果成功了嗎?
Jeff Dean:是的,成功了。當時我以為 32 個處理器已經足夠讓神經網絡運作順暢,結果證明我還是錯了。其實我們需要大約一百萬倍的計算能力,才能真正讓它們表現出色。
幸運的是,摩爾定律的進步、處理器速度的提升,以及各種計算裝置的發展,最終使我們擁有了強大的一百萬倍計算能力的系統。這讓我重新對神經網絡産生興趣。
當時 Andrew Ng(吳恩達)每周都有一天在 Google 做顧問。
有一次我在 Google 的廚房碰到他,問他在做什麼。他說:“還在摸索,不過我的學生在神經網絡方面取得了不錯的進展。”于是我提議:“為什麼不訓練一些非常大的神經網絡呢?”
這就是我們在 Google 開始神經網絡研究的起點,後來我們成立了Google Brain 團隊,專門研究如何利用 Google 的計算資源訓練大型神經網絡。
我們開發了軟體,把神經網絡分解為多個部分,由不同計算機處理,還讓它們互相溝通,在2000台計算機上一起訓練一個神經網絡。這使我們訓練出比當時其他模型大 50 到 100 倍的網絡。這是2012年初,圖像識别取得重大突破之前的事。
當時我們做的還是把計算機連接配接起來,就像我大學論文一樣。這次不同的是規模更大,而這次真的奏效了,因為計算機更快了,也用了更多的機器。
Hannah Fry:不過在 2011 年的時候,這感覺像是一場賭注嗎?
Jeff Dean:當然是了。我們當時為訓練這些神經網絡而搭建的系統,并嘗試各種分解方法,我給它取名為 DistBelief(直譯為“配置設定信念”)。
部分原因是很多人不相信它真的能成功,另一個原因是它是一個分布式系統,可以建構這些網絡——我們想訓練的不僅僅是神經網絡,還有深度信念網絡(Deep Belief Networks)。是以就叫 DistBelief 了。
3
DeepMind 和 Gemini 背後的故事
Hannah Fry:當你們在美國開發 DistBelief 時,大西洋的另一邊正是 DeepMind 的起步階段。我知道你是後來負責拜訪 DeepMind 的人。你能講講這個故事嗎?
Jeff Dean:是的。Geoffrey Hinton,這位著名的機器學習研究員,2011年夏天曾在 Google 工作過。那時我們還不知道該給他安排什麼職位,最後把他歸為實習生,這挺有趣的。後來他和我一起工作,之後我們得知了 DeepMind 的存在。
我想 Geoffrey 對這家公司的起源有所了解,也有其他人告訴我們,“英國有一家公司在做些有意思的事情。”當時他們大概隻有四五十人。于是我們決定去看看,把它視作潛在的收購對象。
那時我在加州,Geoffrey 在多倫多,是那裡的教授。他背有問題,不能乘坐普通航班,因為他無法坐下,隻能站着或躺着。而航班起飛時不能站着,是以我們安排了私人飛機上的醫療床。
我們從加州飛往多倫多接他,然後一起飛到英國,降落在某個偏遠機場。接着我們坐上一輛大面包車,直奔 DeepMind 的辦公室,應該在 Russell Square(倫敦羅素廣場)附近。
前一晚的飛行讓我們很累,接下來就是來自 DeepMind 團隊的 13 場連續 20 分鐘的演講,介紹他們的各種項目。我們看了他們在 Atari 遊戲上的一些工作,主要是用強化學習玩舊版 Atari 2600 遊戲,比如《Breakout》和《Pong》,這都非常有趣。
Hannah Fry:你們當時還沒有做強化學習的工作?
Jeff Dean:對,那時我們主要專注于大規模的監督學習和無監督學習。
Hannah Fry:強化學習更多是通過獎勵來激勵的,對吧?
Jeff Dean:是的,我認為這些技術都很有用,通常将它們結合起來使用效果會更好。
強化學習的核心在于代理在環境中操作,每一步都有多個選擇。例如,在圍棋中,你可以在多個位置放置棋子;在 Atari 遊戲中,你可以移動操控杆或按按鈕。獎勵往往是延遲的,在圍棋中,你直到棋局結束才能知道每一步是否正确。
強化學習的有趣之處在于它能夠處理長時間的動作序列,并根據這些動作的結果來給予獎勵或懲罰。獎勵或懲罰的程度與這些動作的預期結果相關。
如果你取得了勝利,你會覺得這個決定是對的,進而增加對這一政策的信心;如果失敗了,你可能會減少對這一政策的信心。強化學習特别适用于那些結果需要較長時間才能顯現的情況。
強化學習特别适用于那些立即無法判斷好壞的情況。
監督學習指的是你有一組輸入資料和對應的真實輸出。一個經典的例子是圖像分類中,每張圖像都有一個标簽,如“汽車”、“鴕鳥”或“石榴”。
Hannah Fry:當你們決定進行收購時,Demis 是否感到緊張?
Jeff Dean:我不确定他是否緊張。我主要關注的是代碼的品質。我要求檢視一些實際代碼,以了解代碼标準和注釋情況。Demis 對此有些猶豫。
我說隻需要一些小片段,就能讓我了解代碼的實際情況。于是,我進入了一間工程師的辦公室,我們坐下來聊了 10 分鐘。
我問,這段代碼做了什麼?那個東西呢?那是什麼作用?能給我看看它的實作嗎?我出來後對代碼品質很滿意。
Hannah Fry:在這些示範中,你的印象如何?
Jeff Dean:我覺得他們的工作非常有趣,尤其是在強化學習方面。
我們當時專注于模型擴充,訓練的模型比 DeepMind 處理的要大得多。他們在用強化學習解決遊戲問題,這為強化學習提供了一個很好的應用場景。
結合強化學習和我們的大規模擴充工作,看起來會是一個很有前途的方向。
Hannah Fry:這就像從兩個方向解決問題——一個是小規模的強化學習,如玩具模型;另一個是大規模的了解。将這兩者結合起來,效果非常強大。
Jeff Dean:是的,确實如此。這也是我們去年決定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定将這些單元結合起來,形成 Google DeepMind。
Gemini 的概念實際上早于合并的想法,但真正的目的是讓我們在這些問題上共同努力。
由于我們都緻力于訓練高品質、大規模、多模态的模型,将想法和計算資源分開是不合理的。
是以,我們決定将所有資源和人員整合,組建一個聯合團隊來解決這個問題。
Hannah Fry:為什麼叫 Gemini?
Jeff Dean:實際上是我命名的。Gemini 代表雙胞胎,這個名字很好地展現了 DeepMind 和Google Brain 的結合,象征着兩個團隊共同緻力于一個雄心勃勃的多模态項目。
這個名字還有多個含義,比如它有點像是雄心勃勃的太空計劃的前奏,這也是我選擇這個名字的原因之一。
4
Transformer與多模态處理
Hannah Fry:我想要談談多模态的内容。在此之前,可以告訴我們一點關于 Transformer 的工作以及它的變革性影響嗎?
Jeff Dean:當然可以。實際上,處理語言和許多其他領域的問題往往涉及序列問題。
例如,Gmail 的自動完成功能根據你輸入的内容來預測下一個可能的詞語,這類似于大型語言模型的訓練過程。這樣的模型被訓練來逐字或逐詞地預測文本的下一部分,就像是進階的自動補全功能。
這種序列預測方法在許多領域都很有用。在語言翻譯中,模型可以根據輸入的英文句子預測相應的法文句子。在醫療領域,它能夠處理病人的症狀和檢測結果,預測可能的診斷結果。
此外,這種方法也适用于其他資料類型,如 DNA 序列。通過隐藏序列中的部分資訊,模型被迫預測接下來會發生什麼。這種方法不僅适用于語言翻譯和醫療診斷,還可以擴充到其他領域。
在 Transformer 架構出現之前,遞歸模型才是成功的模型,它們依賴内部狀态來處理序列資料。處理每個詞時,模型會更新一次内部狀态,然後再處理下一個詞。這種方法需要對每個詞進行逐漸處理,導緻運作速度較慢,因為每一步都依賴于前一步,存在序列依賴問題。
為了提高效率,Google Research 的研究人員提出了 Transformer 架構。與其逐詞更新狀态,不如一次性處理所有詞,并利用所有先前的狀态進行預測。
Transformer 基于注意力機制,能夠關注序列中的重要部分。這使得它可以并行處理大量詞語,大幅提升了效率和性能,相比傳統遞歸模型,提升了 10 到 100 倍。
這就是進步如此大的原因。
Hannah Fry:也許我們還會從語言和序列中獲得一種概念了解或抽象,這是否讓你感到驚訝?
Jeff Dean:是的。當我們聽到一個詞時,我們不僅想到它的表面形式,還會聯想到許多其他相關的事物。比如,“cow(牛)”會讓我們想到牛奶、咖啡機、擠奶等。在詞的表示中,方向性也很有意義。例如,“walk(走)”到“walked”的變化方向與“run(跑)”到“ran”的方向相同。這種表示不是我們故意設計的,而是訓練過程中自然出現的結果。
Hannah Fry:真是太神奇了。但這隻是語言方面的讨論。那麼,多模态處理會如何改變呢?有什麼不同?
Jeff Dean:多模态處理的關鍵在于如何将不同類型的輸入資料(如圖像和文字)轉換為相同的高維表示。當我們看到一頭牛時,這會在我們的大腦中激活類似的反應,不論是通過閱讀“cow(牛)”這個詞,還是看到牛的圖檔或視訊。我們希望訓練模型,使其能夠将這些不同輸入的聯合意義和表示整合起來。這樣,看到一段牛在田野中走動的視訊,模型會觸發與看到“cow(牛)”類似的内部反應。
Hannah Fry:是以,多模态處理并不是将語言部分和圖像部分分開處理再結合?
Jeff Dean:正是這樣。在早期模型中,雖然存在這些表示,但處理起來确實更複雜。
Hannah Fry:這是否使得多模态模型的初始設定更加困難?
Jeff Dean:是的,多模态模型的整合和訓練比單一語言模型或圖像模型複雜得多。然而,這樣的模型可以帶來很多好處,比如跨模态的遷移學習。看到牛的視覺資訊可以幫助模型更好地了解語言。這樣,無論是看到“cow(牛)”這個詞還是牛的圖像,模型都會有類似的内部觸發反應。
5
多模态模型的風險與潛力
Hannah Fry:你認為這些多模态模型會改變我們的教育方式嗎?
Jeff Dean:我認為 AI 在教育中的潛力巨大,但我們還在探索初期。
研究表明,一對一輔導比傳統課堂效果更好,那麼 AI 能否讓每個人都享受到類似的一對一輔導呢?這個目标離我們已經不遠了。
未來,像Gemini這樣的模型可以幫助你了解課本中的内容,無論是文字、圖檔,還是視訊。如果有不了解的地方,你可以提問,模型會幫助解釋,還能評估你的回答,引導學習進度。
這種個性化學習體驗能惠及全球,不僅限于英語,還将支援全球數百種語言。
Hannah Fry:你提到的多語言和普及工具的想法很好,但是否存在這樣的風險:使用這些工具的人獲益更多,而無法使用的人會面臨更多困難?這是你擔心的問題嗎?
Jeff Dean:是的,我擔心可能會出現一個兩級系統。我們應該努力讓這些技術普及,讓它們的社會優勢最大化,并且確定教育資源變得負擔得起或免費。
Hannah Fry:現在計算方式似乎已經從确定性轉向機率,公衆是否需要接受模型可能會犯錯的現實?這種問題是否能解決?
Jeff Dean:兩者都有。一方面,我們可以通過技術進步,比如更長的上下文視窗來提升準确性。另一方面,公衆需要明白模型是工具,不能完全依賴它們的每個輸出。我們要教育人們保持适度懷疑,同時技術的進步會減少這種懷疑,但适度審查依然重要。
Hannah Fry:除了上下文視窗,還有其他方法可以減少虛假結果的風險嗎?
Jeff Dean:是的,另一個方法是“思維鍊提示”(chain of thought prompting)。例如,對于數學問題,讓模型逐漸展示解題過程比直接問答案更有效,不僅輸出更清晰,正确率也更高。即使在沒有明确答案的問題上,給出更具體的提示也能獲得更好的結果。
Hannah Fry:這些多模态模型會了解我們的個人特點和偏好嗎?
Jeff Dean:是的,我們希望模型能更個性化,比如根據你是素食主義者推薦素食餐廳。雖然現在可能還做不到,但未來會有更多符合個人需求的功能,比如制作适合孩子的插圖故事書。
我們希望模型能處理複雜的任務。例如,你可以用簡單的指令讓機器人完成家務。雖然現在的機器人還做不到這一點,但我們正接近實作這個目标,未來它們能在混亂的環境中完成許多有用的任務。
Hannah Fry:現在這些助手主要用于增強人類能力,特别是在醫療和教育領域。多模态模型是否能幫助我們更好地了解世界?
Jeff Dean:是的,随着模型能力的提升,它們能處理更複雜的任務,比如椅子租賃或會議策劃。模型可以像人一樣提出問題以明确需求,并進行高層次的任務。此外,它們能在模拟器中測試不同設計方案,例如設計飛機。雖然我們不能準确預測這些能力何時實作,但模型在過去5到10年裡取得了顯著進展。未來,這些功能可能會更快實作,甚至能幫助設計特定的飛機。
(AI科技評論長期圍繞AI與機器人領域的前沿研究進行盤點和報道,過去數年,我們接收和報道了上千篇報道,覆寫全球各大高校與企業的頂級實驗室。歡迎添加微信nabaur進行交流,如果您有優秀的工作想要分享,也歡迎投稿或者聯系報道。)
參考資料:https://www.youtube.com/watch?v=lH74gNeryhQ