天天看點

到了2030年,GPT會發展成什麼樣?

作者:AI改變萬物
到了2030年,GPT會發展成什麼樣?

人工智能

GPT-4 以其在編碼、創意頭腦風暴、寫信等方面的能力讓許多人感到驚訝。機器學習帶來的驚喜不僅限于 GPT-4:之前 Minerva 的數學能力就讓我大吃一驚,也讓許多同行預測員感到同樣的驚訝。

我們怎麼才能對機器學習的發展不那麼驚訝?我們的大腦通常會暗自做出零階預測:看看目前的技術水準,并加入“感覺合理”的改進。但是,“看似合理”的東西容易産生認知偏差,并且會低估像機器學習這樣發展得那麼快的領域的進步。一種更有效的方法是進行一階預測:對發展的曆史速度做出量化,并前推算,同時考慮可能會放緩或加速的原因。

在這篇文章裡,我将使用這種方法來預測 2030 年時經過大型預訓練的機器學習系統的特性。全文通篇會采用“GPT 2030”的說法,這是一個假設的系統,具備了預測中 2030 年時大語言模型的那種能力、計算資源與推理速度(但也可能接受了其他模态,比方說圖像的訓練)。為了預測 GPT 2030 的屬性,我查閱了各種來源,包括經驗比例定律、未來計算與資料可用性的預測、特定基準的改進速度、目前系統的推理速度經驗值,以及未來可能的并行性改進。

GPT 2030 的能力令人驚訝(至少對我來說是這樣的)。尤其是,GPT 2030 與目前系統相比,将具備若幹顯著優勢,甚至與人類員工相比也是如此以及(至少在某些重要方面是這樣):

  1. GPT 2030 有可能在各種特定任務上表現出超人的水準,包括編碼、黑客攻擊和數學,以及潛在的蛋白質設計(第 1 節)。
  2. GPT 2030 可以快速“工作”和“思考”: 按照每分鐘處理的單詞數計算 [範圍:0.5x-20x],我估計它的速度會是人類的 5 倍,并且如果 FLOP(每秒浮點運算次數)多付 5 倍價錢的話,還可以提高到 125 倍(第 2 節)。
  3. GPT 2030 可以任意複制,并行運作。訓練 GPT 2030 的組織會有足夠的計算能力來并行跑多個副本:我估計在調整到人類的工作速度後,一年足以執行 180 萬年的工作 [範圍:40萬-100萬 年](第 3 節)。
  4. 考慮到前一點的 5 倍加速,這項工作可以在 2.4 個月内完成。由于具有相同的模型權重,GPT 2030 的副本可以共享知識,進而讓快速并行學習成為可能:我估計它 1 天的學習量可相當于人類學習 2500 年(第 4 節)。
  5. GPT 2030 将接受文本和圖像以外的其他模态的訓練,這可能包括違反直覺的模态,比方說分子結構、網絡流量、低級機器代碼、天文圖像以及腦部掃描。是以,它可能對我們經驗有限的領域有很強的直覺了解,包括能形成我們沒有的概念(第 5 節)。

這些能力至少會加速許多研究領域的發展,同時也會造成嚴重的濫用(第 6 節)。在濫用方面,GPT 2030 的程式設計能力、并行化與速度将讓它成為強大的網絡攻擊威脅。此外,它的快速并行學習能力可以用來研究人類行為,進而利用數千“年”的實踐來操縱和誤導。

在加速方面,主要瓶頸之一會是自主性。在像數學研究這樣可以自動檢查工作的領域,我預測 GPT 2030 的表現将勝過大多數專業數學家。在機器學習方面,我預測 GPT 2030 可獨立執行實驗并生成圖表和文章,但研究所學生和研究科學家将提供指導并評估結果。在這兩種情況下,GPT 2030 都将成為研究過程不可或缺的一部分。

如果用今天的系統作為參照,我對 GPT 2030 具備哪些屬性的預測沒那麼直覺,而且也可能是錯誤的,因為機器學習到 2030 年會發展成什麼樣子仍存在很大的不确定性。但是,上面的特性 (第 1 點到第 5 點) 是我的預測中值,不管 GPT 2030 會發展成什麼樣,我都不會相信它“隻是比 GPT-4 好一點而已”。

如果我是對的,那麼無論人工智能會産生什麼樣的影響,影響都不會小。我們現在應該為這些影響做好準備,問問在最大範圍内會發生什麼(大約在價值 1 萬億美元、影響 1000 萬人的生命,或對社會程序造成重大破壞的程度上)。最好是現在就被吓到,而不是在系統已經推出的 7 年後才感到驚訝。

1. 特殊能力

我預計 GPT 2030 會具備超人的編碼、黑客攻擊與數學能力。我還預期,在閱讀和處理大型語料庫,找到模式和洞察,以及回憶事實方面,它将具備超人的能力。最後,由于 AlphaFold 和 AlphaZero 在蛋白質結構預測與玩遊戲方面具有超人的能力,GPT 2030 也可以做到這些,比方說,如果它用的是跟訓練 AlphaFold/AlphaZero 模型相似的資料上進行多模态訓練的話。

程式設計。在訓練中斷後 GPT-4 在 LeetCode 問題上的表現優于人類基線,它還通過了幾家主要科技公司的模拟面試(圖 1.5)。改進的速度仍然很快,從 GPT-3 到 4 一下子就到提升了 19%。在更具挑戰性的 CodeForces 競賽上,GPT-4 表現不佳,但 AlphaCode 與 CodeForces 競争對手的中位數持平。在更具挑戰性的 APPS 資料集上,Parsel 又比 AlphaCode 更勝一籌 (7.8%->25.5%)。展望未來,預測平台 Metaculus 給出了到中位數年份 2027 年時人工智能在 80% APPS 上都将勝出,也就是說,除最優秀的人類以外,人工智能已經超過人類了。

黑客攻擊。我預期在一般編碼能力加持下黑客攻擊能力也會得到改善,而且機器學習模型用于搜尋大型代碼庫漏洞,其擴充性和細緻程度都要超過人類。事實上,ChatGPT 已經被用來幫助生成漏洞。

數學。Minerva 在一項競賽數學基準測試 (MATH) 上已經達到了 50% 的準确率,這比大多數人類競争對手都要好。進展速度很快(1 年内 >30%),并且通過自動形式化、減少算術錯誤、改進思維鍊與更好的資料,可以獲得唾手可得的顯著成果。Metaculus 預測到 2025年,AI 對 MATH 測試的準确率将達到 92%,并且到了 2028 年(中位數),人工智能将能赢得國際數學奧林匹克競賽金牌,與全球最好的高中生不相上下。我個人預計, GPT 2030 在證明“良定義定理”方面會比大多數專業數學家都要好。

資訊處理。事實回憶和處理大型語料庫是語言模型的記憶能力以及大型上下文視窗的自然結果。根據經驗,GPT-4 在 MMLU (MMLU 是一項範圍很廣的标準化考試,包括律師考試、MCAT 以及大學數學、實體、生物化學和哲學)上達到了 86% 的準确率;即便考慮到可能會出現 train-test contamination(訓練集和測試集的交叉污染),這大概也已經超出任何活人的知識範疇。關于大型語料庫,Zhong 等人(2023) 曾用 GPT-3 開發過一個系統,後來這個系統在大型文本資料集裡面發現了幾個之前不知道的模式,并且描述了出來,後來 Bills 等人的相關工作(2023)又擴充了這種趨勢,這表明模型将很快成具備超級智能。這兩項工作都利用了大型語言模型的大型上下文視窗,現在這個規模已經超過 100000 token 并且還在增長。

更一般而言,機器學習模型的技能情況跟人類不一樣,因為人類與機器學習适應的是非常不同的資料源(人類通過進化,機器學習通過海量網際網路資料)。當模型在視訊識别等任務上達到人類水準時,它們很可能就能在許多其他任務(如數學、程式設計以及黑客攻擊)中表現出超人水準。此外,由于模型變得更大資料變得更好,随着時間的推移可能會出現其他的強大功能,預期模型功能“維持”或低于人類水準沒有充分的理由。雖然目前的深度學習方法有可能在某些領域達不到人類水準,但它們也有可能會超越人類,甚至顯著超越人類水準也說不定,尤其是在人類在進化上不擅長的數學等領域。

2. 推理速度

(感謝 Lev McKinney 為本節運作性能基準測試。)

為了研究機器學習模型的速度,我們測量了機器學習模型生成文本的速度,以每分鐘 380 個單詞的人類思維速度為基準。使用 OpenAI 的chat completions API,我們估計 gpt-3.5-turbo 每分鐘可以生成 1200 個單詞 (words per minute,wpm),而 gpt-4 是 370 wpm(截至 2023 年 4 月初)。規模較小的開源模型,如 pythia-12b ,用 A100 GPU 跑用開箱即用的工具,至少可達到 1350 wpm,通過進一步優化似乎可以再翻一番。

是以,如果以截至 4 月份的 OpenAI 模型為參照,人工智能的速度要麼大約是人類速度的 3 倍,要麼等于人類速度。我預測模型在未來的推理速度會更快,因為在加速推理方面存在很大的商業與實踐壓力。事實上,根據 Fabien Roger 的跟蹤資料,在這篇文章發表之前的一周,GPT-4 的速度已經增加到約 540wpm(12 個token/秒);這表明存在持續的改進空間與意願。

我的預測中值是模型的 wpm 将是人類的 5 倍(範圍:[0.5x, 20x]),因為這之後會出現邊際收益遞減的情況,盡管有一些考慮會指向更高或較低的數字。

重要的是,機器學習模型的速度不是固定的。模型的串行推理速度可以以吞吐量減少 k 倍為代價将速度提高 k 平方倍(換句話說,一個模型 k 立方倍的并行副本可以替換為速度快 k 平方倍的一個模型)。這可以通過并行平鋪法來實作,理論上甚至适用于比 k 平方還要大的情況,可能至少是 100 甚至更多。是以,通過把 k 設為 5 的話,可以将 5 倍于人類速度的模型加速到 125 倍于人類速度。

重要提醒,速度與品質未必比對:如第 1 節所述,GPT 2030 的技能組合跟人類不一樣,機器在某些我們認為很容易的任務上會失敗,而在某些我們感覺困難的任務卻很精通。是以,我們不應把 GPT 2030 看作是“高速版人類”,而應将其看作是具有違反直覺的技能的,“高速版員工”。

盡管如此,把加速因素納入考慮仍然很有參考意義,尤其是當加速值很大時。如果語言模型獲得了 125 倍的加速,假設其處于 GPT 2030 的技能範圍内,需要我們一天時間的認知動作,GPT 就可以在幾分鐘内完成。以前面的黑客攻擊為例,機器學習系統可以快速建立起對我們來說生成速度較慢的漏洞利用或攻擊。

3. 吞吐量與并行副本

模型可以根據可用的計算和記憶體情況任意複制。這樣任何可以并行化的工作都可以快速完成。此外,一旦一個模型被微調到特别有效,改變就可以立即傳播到其他執行個體。模型也可以針對專門的任務進行提煉,進而跑得更快、成本更低。

一旦模型經過訓練,可能就會有足夠的資源來跑模型的多個副本。這是因為訓練一個模型需要運跑它的很多個并行副本,而訓練這個模型的組織在部署的時候仍将擁有這些資源。是以,我們可以通過估算訓練成本來降低副本數量。

舉個例子說明一下這種邏輯,訓練 GPT-3 的成本足以讓它執行 9 x 10^11 次前向傳播。換句話說,人類每分鐘的思考量是 380 個單詞,一個單詞平均為 1.33 個 token,是以 9 x 10^11 次前向傳播相當于以人類速度工作約 3400 年。是以,用人類的工作速度該組織可以跑 3400 個模型的并行副本一整年,或者以 5 倍于人類的速度跑相數量的副本 2.4 個月。

我們接下來為未來的模型設計同樣的“訓練懸垂”(訓練與推理成本的比率)。這個比率應該會更大:主要原因是訓練懸垂與資料集大小大緻成正比,而資料集會随着時間的推移而增加。随着自然産生的語言資料被我們用完,這種趨勢将會放緩,但新的模式以及合成或自生成的資料仍将推動它向前發展。我預測 2030 年的模型可使用足夠的資源進行訓練,去執行相當于人類速度 1800000 年的工作[範圍:400k-10M]。

請注意,Cotra (2020) 與 Davidson (2023) 估計的數量相似,得出的數字比我得預測更大;我想主要差別在于我對自然語言資料耗盡所産生影響得模組化方式不一樣。

上面的預測有些保守,因為如果組織購買額外的計算資源的話,模型可使用得資源可能會多于訓練時所用資源。粗略估計表明,GPT-4 使用了全球計算資源的約 0.01% 進行訓練,不過我預計未來的訓練占用全球計算總量的份額會更大,是以在訓練後進一步擴充的空間會更小。盡管如此,如果組織有充分理由去擴充資源的話,仍然可以将所運作的副本數量提高到另一個數量級。

4. 知識分享

(感謝 Geoff Hinton 首先向我提出了這個觀點。)

模型的不同副本可以共享參數更新。比方說,ChatGPT 可以部署到數百萬使用者那裡,從每次互動中學到一些東西,然後将梯度更新(gradient updates)傳播到中央伺服器,在做過平均處理後再應用到模型的所有副本上。通過這種方式,ChatGPT 在一個小時内觀察到的人性比人類一輩子(100 萬小時 = 114 年)看過的東西還要多。并行學習也許是模型最重要的優勢之一,因為這意味着它們可以快速學習任何自己缺失的技能。

并行學習的速率取決于一次跑多少個模型副本,它們擷取資料的速度有多快,以及資料是否可以高效地并行利用。最後這一點,即使是極端的并行化也不會對學習效率造成太大影響,因為數百萬的批量大小在實踐中很常見,并且梯度噪聲尺度(McCandlish 等人,2018 年)預測學習性能在某個“臨界批量大小”以下劣化程度最小。是以,我們将聚焦在并行副本和資料采集上。

我會提供兩個估計,這兩個估計都表明以人類的速度并行學習至少約 100 萬份模型是可行的。也即是說,機器一天的學習量相當于人類學 2500 年,因為 100 萬天 = 2500 年。

第一個估計用到了第 3 節中的數字,得出的結論是訓練模型的成本足以模拟模型 180 萬年的工作(根據人類速度進行調整)。假設訓練運作本身持續了不到 1.2 年(Sevilla 等人,2022 年),這意味着訓練模型的組織有足夠的 GPU 以人類速度運作 150 萬個副本。

第二個估計考慮了部署該模型的組織所占市場佔有率。比方說,如果一次有 100 萬使用者向模型發起查詢,則組織必然有資源來服務 100 萬個模型副本。大緻而言,截至 2023 年 5 月,ChatGPT 擁有 1 億使用者(并非同時全部活躍),截至 2023 年 1 月,其每天有 1300 萬活躍使用者。我假設典型使用者的請求量相當于模型幾分鐘的生成文本,是以 1 月份的數字可能意味着每天大概隻有 5 萬人日的文本。不過,未來的 ChatGPT 式的模型似乎很可能會達到其 20 倍之多,日活使用者可以達到 2.5 億更多,是以每天将會有 100 萬人日的資料。相比之下,Facebook 的日活使用者數是 20 億。

5. 多模态、工具與執行器

從曆史上看,GPT 風格的模型主要是基于文本和代碼進行訓練,除了通過聊天對話之外,與外界互動的能力有限。然而,這種情況正在迅速改變,因為模型正在接受圖像等其他模态的訓練,正在接受使用工具的訓練,并開始與實體執行器互動。此外,模型不會局限于文本、自然圖像、視訊和語音等以人類為中心的模态——它們也可能會接受網絡流量、天文圖像或其他海量資料源等人類不熟悉的模态的訓練。

工具。最近釋出的模型開始利用了外部工具,如 ChatGPT 插件等。文本與工具使用相結合足以編寫出可執行的代碼,說服人類讓機器替他們采取行動,進行 API 調用,交易,甚至執行網絡攻擊都有可能。工具的使用具備經濟用途,是以會有進一步發展這種能力的強烈動機。

ChatGPT 是被動的:使用者說 X,ChatGPT 回應 Y。風險存在但有限。很快就會有主動系統 - 一個助手會替你回複電子郵件,代表你采取行動等。這樣風險會更高。

- Percy Liang (@percyliang) 2023 年 2 月 27 日

新模态。現在有大型開源視覺語言模型,如 OpenFlamingo,在商業方面,GPT-4 和 Flamingo 都接受了視覺和文本資料的訓練。研究人員還在試驗更多奇異的模态對,例如蛋白質和語言(Guo 等人,2023 年)。

我們應該期望大型預訓練模型的模式會繼續擴充,原因有二。首先,在經濟上,将語言與不太熟悉的模态(如蛋白質)配對有它的用處,這樣使用者就可以從解釋并有效地進行編輯中受益。預測會用蛋白質、生物醫學資料、CAD 模型以及與主要經濟部門相關的任何其他模态進行多模态訓練。

其次,我們将開始用完語言資料,是以模型開發人員得搜尋新類型的資料,進而可以繼續受益于規模。除了傳統的文本和視訊之外,現有資料源當中天文資料(很快将達到每天艾位元組得規模)和基因組資料(大約 0.1 艾位元組/天)是規模最大之一。這些以及其他得海量資料源可能會被用于訓練 GPT 2030。

使用外來模态意味着 GPT 2030 可能會具備非直覺的能力。它可能比我們更了解恒星和基因,即盡管它現在處理基本的實體任務都比較困難。這可能會帶來驚喜,比方說設計出新的蛋白質,這是我們基于 GPT 2030 那種“一般”智能水準預料不到的。在思考 GPT 2030 的影響時,重要的是要思考由于這些奇異的資料源而可能形成的超人能力。

執行器。模型也開始使用實體的執行器:ChatGPT 已經用于機器人控制,OpenAI 正在投資一家人形機器人公司。不過,在實體域收集資料要比在數字域收集資料昂貴得多,而且人類在進化上也更适應實體域(是以機器學習模型與我們競争的門檻更高)。是以,與數字工具相比,我預計人工智能掌握實體執行器的速度會更慢,而且我不确定我們是否該在 2030 年之前做到這一點。量化而言,我認為在 2030 年實作自主組裝一輛按比例複制的法拉利的機率是 40%。

6. GPT-2030 的影響

接下來我們将分析像 GPT 2030 這樣的系統對社會意味着什麼。具備 GPT 2030 特征的系統至少會顯著加速某些領域的研究,同時被濫用的規模也大得很。

我會從分析 GPT 2030 的一些一般優勢和局限性開始,然後用來作為分析加速和濫用的視角。

優勢。GPT 2030 代表的是一支龐大、适應性強、高産出的勞動力隊伍。回憶一下吧,多個 GPT 2030 副本并行工作,按照 5 倍于人類的運作速度,可以完成 180 萬年的工作。這意味着我們可以(受到并行性的限制)模拟 180 萬個代理,每個代理在 2.4 個月内即可完成一年的工作。如上所述,對于 FLOP (浮點運算),我們可以開出 5 倍的費用,進而換取額外 25 倍的加速(這将達到人類速度的 125 倍),是以我們還可以模拟出 14000 個代理,這些代理每個都能在 3 天内完成一年的工作。

限制。利用這種數字勞動力存在三個障礙:技能情況、實驗成本以及自主性。首先,GPT 2030 将擁有與人類不同的技能組合,導緻它在某些任務上表現更差(但在其他任務上表現更好)。其次,模拟人工仍然需要與實體世界對接,以便收集資料,這個本身需要時間和計算成本。最後,在自主性方面,如今的模型在被“卡住”之前隻能通過思維鍊生成幾千個 token,進入到沒法生成高品質輸出的狀态。在将複雜任務委托給模型之前,我們需要顯著提高其可靠性。我預計可靠性會提高,但并非沒有限制:我(非常粗略)的猜測是 GPT 2030 可以穩定運作數天(與人類等效的時間),然後就得重新設定或交給外部回報控制。如果模型以 5 倍的速度運作的話,這意味着它們每隔幾個小時就需要人工監督的介入。

是以,GPT 2030 影響最大的任務應該具備以下特性:

  1. 利用了 GPT 2030 相對于人類具備優勢的技能。
  2. 隻需要外部經驗資料(收集應該很輕松快速,與昂貴的實體實驗相反)的任務。
  3. 可以先驗分解為可靠執行的子任務,或者具有清晰且可自動化的回報名額來幫助引導模型的任務。

加速。有項任務這三條标準都很容易滿足,那就是數學研究。首先,GPT 2030 可能具備超人的數學能力(第 1 節)。這第二條和第三條,數學可以純粹通過思考和寫作來完成,而且什麼時候定理得到證明我們是知道。此外,全球的數學家總共也沒多少(比方說美國就隻有 3000 人左右),是以 GPT 2030 也許每隔幾天模拟一次産出就能超過所有數學家的年産。

機器學習研究的一些重要部分也符合上述标準。GPT 2030 在程式設計方面能力超人,其中包括實施和運作實驗。鑒于 GPT-4 擅長以通俗易懂的方式解釋複雜的主題(并且市場對此也有很大需求),我猜它也能很好地呈現和解釋實驗結果。是以,屆時機器學習研究可能會簡化成構思出好的實驗來運作,并與高品質(但可能不可靠)的結果報告進行互動。是以,到 2030 年時,研究所學生擁有的資源堪比今天帶領幾名優秀學生的教授手上的資源。

部分社會科學也可以得到顯著加速。很多論文大部分的工作是對具備科學有趣性的資料源進行追查、分類和标記,并從中析取出重要模式。這滿足了第 3 條要求,因為分類和标記可以分解為簡單的子任務,并且也滿足第 2 條要求,隻要資料在網際網路上能找到,或者可以通過線上調查收集到即可。

濫用。加速隻是一方面,另一方面也會存在嚴重的濫用風險。最直接的案例是表現出網絡攻擊性的黑客能力。檢查特定目标是否存在特定類型的漏洞可能會得到可靠執行,并且很容易就能檢查漏洞利用是否成功(前提是能夠與代碼互動),是以第 3 條要求是都可以滿足的。在第 2 條要求上,GPT 2030 需要與目标系統互動去了解漏洞利用是否有效,這會帶來一些成本,但不足以構成重大瓶頸。此外,該模型可以在本地設計好,以開源代碼作為訓練資料源,去測試漏洞利用,是以它可以提前練好黑客攻擊技能,然後再與外部系統進行互動。也就是說,GPT 2030 可以針對大量并行目标快速執行複雜的網絡攻擊。

濫用的第二個來源是操縱。如果 GPT 2030 同時與數百萬使用者進行互動的話,那麼它在一個小時内獲得的人機互動體驗比人一生(100 萬小時 = 114 年)獲得的互動體驗都要多。如果它利用這些互動來學習如何操縱,那麼它就可以獲得遠超人類的操縱技能——打個比方,騙子擅長欺騙受害者,因為他們之前已經在數百人身上練習過,而 GPT 2030 可以将這項技能提高幾個數量級。是以,它可能非常擅長在一對一對話中操縱使用者,或者擅長撰寫新聞文章來影響公衆輿論。

是以,總而言之,GPT 2030 可以将幾乎所有的數學研究以及其他研究領域的重要組成部分自動化,并且可能成為網絡攻擊和說服/操縱等濫用行為的強大載體。其大部分影響将受到“監督瓶頸”的限制,是以如果人工智能可以長時間自主運作的話,那麼它的影響可能會更大。

譯者:boxi

(轉載來自 https://36kr.com/p/2305604523453959)

繼續閱讀