天天看點

基于大模型API的遞歸優化應用的安全風險

最近,網際網路上許多人都使用他們對 GPT-4 的 API 的通路來設計額外的危險功能。 這些是 AGI 實驗室當然可以自己完成并且很可能正在做的能力。 然而,這些 AGI 實驗室至少似乎緻力于安全。 有些人可能會說他們會堅持安全底線,而另一些人可能會說他們沒有。 無論如何,他們有明确的意圖,并且有适當的系統和政策來努力維護AI的安全性, 而網際網路上随機利用開源的人沒有這個顧慮。

推薦:用 NSDT場景設計器 快速搭建3D場景。

是以,人們正在使用 GPT-4 作為單獨優化程式背後的戰略智能,這些程式可以遞歸地自我改進,以更好地實作他們的目标。 請注意,不是 GPT-4 是自我改進的,因為 GPT-4 的權重當機且未開源。 相反,是程式使用 GPT-4 的大上下文視窗(在某些情況下還使用外部永久記憶體)來疊代一個目标,并且每次都越來越好地追求它。

1、GPT-4應用的自我遞歸優化

這裡有兩個例子來感受一下:

基于大模型API的遞歸優化應用的安全風險
  • 這個版本的程式失敗了,但另一個可行的版本在理論上可以非常快速地生成并運作可能非常有影響力的代碼,而對每次疊代的改進方式幾乎沒有監督或限制。
  • 這條推文讓我想到可能将這些遞歸優化的 AI 稱為“俄羅斯套娃”。
基于大模型API的遞歸優化應用的安全風險
基于大模型API的遞歸優化應用的安全風險
  • 這個程式追求通過編寫通用 HTTP 插件來增強其功能和能力的工具性目标,以便更好地實作其更好的編碼插件的最終目标
  • 這種行為的證據真的非常糟糕。 參見 Instrumentally Convergent Goals 及其帶來的危險
AI安全社群的每個人都應該花點時間看看這些例子,尤其是後者,并考慮後果。 即使 GPT-4 保留在盒子裡,隻需讓人們通過 API 通路它、輸入令牌并接收輸出令牌,我們可能很快就會擁有實際上看起來像是獨立的非常早期的代理 AGI 的弱形式,瘋狂。 這太可怕了。

2、深入研究

網際網路上分布着大量來自不同背景的人。 坦率地說,他們中的許多人可能隻想建構很酷的 AI,而不考慮安全防護措施。 其他人可能不是特别想創造會導緻不良後果的人工智能,但他們沒有充分參與關于風險的争論,他們隻是疏忽大意。

如果我們将進階 LLM 副産品 AI 的建立完全交給網際網路,沒有任何規定,也沒有安全檢查,那麼毫無疑問,某些人會在他們建立的 AI 中做出不負責任的行為。 這是必然的,那裡的人太多了。 每個人都應該對此保持一緻。

讓我們看看另一個自我改進Agent的作者的觀點。 這是他們工作的推文:

基于大模型API的遞歸優化應用的安全風險

這是他們談論 AGI 的方式:

基于大模型API的遞歸優化應用的安全風險

同情 AGI 不會使它保持一緻,也不會阻止任何存在的風險。 結束歧視顯然對世界有利,但它不會與 AGI 保持一緻。 Significant Gravitas 深刻地拟人化了這些模型的性質,以及對齊方式的工作方式,清楚地表明了為什麼他們覺得不需要考慮安全性。

我說這些并不是針對這個人。 人們以一種或另一種方式通過因果鍊形成他們的信念,改善事物的方法不是懲罰個人而是改善鍊條。

我在這裡的唯一目标是舉例說明精通深度學習的人可能擁有廣泛的信念,以及這應該如何引起那些關心 AI 風險的人的深切關注。

另外,許多與上述類似的 AGI 架構似乎起源于 David Deutsch,我認為這是可悲的誤導,因為無論 AGI 的最初外觀如何,幾乎肯定不符合人的心智模型。

這一切都指向一個我認為正确的二分法:

即使 AGI 實驗室足夠聰明,可以在内部使用他們最強大的模型來確定安全,并且不開源他們模型的權重供任何人微調成邪惡,如果他們讓任何人通過他們的 API 通路這些模型而不受監督 關于其他人用它執行什麼代碼,那麼仍然會出現主要風險。

AI安全界的焦點現在感覺陷入了僵局,隻關注和調整最先進的通用模型,而完全忽略了所有其他副産品模型,這些模型将能夠通過利用最先進的模型達到相當強大的水準,目前已向公衆開放。

這是否真的發生了,隻是受制于具有實作這一目标的技術經驗的人數以及他們的積極性。 沒有什麼能阻止他們。 非常早期和弱形式的代理 AGI 已經出現。 人們正在建造它們。

不相信? 看看目前熱門的前 3 個 GitHub 存儲庫:

基于大模型API的遞歸優化應用的安全風險

而且,開源模型隻會越來越強大:

從現在開始,模型隻會變得越來越強大,越來越容易獲得。 我不認為期望在 1-2 年内看到接近 GPT-4 水準的開源模型是遙不可及的。 一旦完成這些,任何人都可以使用它們來建立這些遞歸優化的 AI。 如果我們不放慢速度,我們可能會在任何地方看到Agent追求工具收斂目标的證據。

希望戰略制定足夠薄弱,不會造成災難性後果。 然而,LLM 的戰略制定能力越強大,即使它們本身是良性的,這些使用它們遞歸優化的 AI 也會變得越強大。

GPT-4 在我看來确實非常聰明。 GPT-5 呢? GPT-6? 我們在哪裡畫線?

這些遞歸優化 AI 現在有多強大?

這不是很清楚。 無論它們多麼強大,都會顯着改變我在這裡寫作的基調,因為我們需要多麼迫切地需要減輕這些風險。 不管怎樣,從長遠來看(在這些奇怪的 AI 時代意味着 1-2 年),這都需要考慮。

OpenAI 的 Andrej Karpathy 在談到他的 Jarvis(參見上面的 GitHub 存儲庫)時說,“關于 GPT 心理學的有趣的非顯而易見的注釋是,與人們不同,他們完全沒有意識到自己的優勢和局限性。例如,他們有有限的上下文視窗 .他們隻能勉強做心算。樣本可能會變得不走運并偏離軌道。等等。”

這讓我感覺更安全一些,因為我認為還沒有人想出一種方法讓遞歸疊代永不脫軌。 上面這篇文章中來自 Harris Rothaermel 的第一個截圖也顯示了他的Agent遞歸到無窮遠和出軌。 希望它能保持這種狀态一段時間。 但最終,人們會弄清楚如何讓它發揮作用。 如果沒有辦法讓它與 GPT-4 一起運作,我會感到非常震驚。

3、降低AI安全風險的思路

如果這一切都是真的,我們如何才能減輕由此産生的風險? 以下是我想到的一些選項以及對它們的一些闡述。 我對其中任何一個都沒有深入投入,尤其是作為方式。 相反,我想提出所有我能想到的全面選項。

  • 選項 1:不要為最強大的模型開放 API

這顯然很苛刻,但似乎是提案的良好起點。 人們将無法使用這些模型來建立副産品遞歸優化 AI/Russian Shoggoth Dolls,如果他們無法通路它們的話。

也就是說,至少在接下來的一年左右,直到另一個 GPT-4 驅動的開源模型不可避免地出現。 但是,至少這些模型産生的代理 AI 會弱于 GPT-5 或 GPT-6 産生的代理 AI。 我并不是特别想進入一個對抗性人工智能不斷互相對抗的世界,但至少安全相關的人們可能會擁有更強大的模型。

  • 選項 2:更嚴格的 API 法規和代碼監督

制定更嚴格的規定,規定誰可以通路 AGI 公司的 API,以及那些通路者必須允許哪些監督。

也許 OpenAI 必須對你進行背景調查,以确認你的身份,并在他們向你提供 API 密鑰之前跟蹤對 AI 的相關态度和信念,以便進行一些風險模組化。

也許通路 GPT-4 意味着你需要讓 OpenAI 通路你将與之串聯使用的所有代碼,以便在代碼運作之前,OpenAI 可以使用 AI 模型對其進行全面掃描并確定沒有優化代理 正在生産可能具有工具趨同目标的産品。

這可能意味着通過有權進行這些檢查的應用程式配置設定對 GPT-4 的通路,而不是簡單地通過 API 密鑰,在獲得密鑰後,個人幾乎可以自由支配。 公司使用的 GPT 插件應該采用相同的思維過程。

要做到這一點,唯一可行的方法可能是 OpenAI 必須建立一個全新的軟體系統(或使用其他人的軟體系統),并将與 GPT-4 的整個接口包含在那裡。

否則,人們肯定會盡力混淆他們的代碼,隻提供某些片段而忽略其他他們擔心可能會被标記的片段。 可能需要花很多心思來思考如何切實做到這一點,并確定人們不會隐藏代碼。

這些似乎是需要立即考慮的步驟。 鑒于對這些強大模型的極高需求,盡管可能會出現開源社群的抗議和抨擊,但人們仍會接受這些安全規定。

  • 選項 3:檢測遞歸優化行為

選項 2 中嵌入的是檢測可能在運作前産生遞歸優化行為的代碼,而選項 3 探索檢測 API 或線上的緊急行為,這些行為似乎是一個優化過程,它以比人類更快的速度遞歸改進 正在運作或運作後。

我不确定最有效的方法,但是,我會在這裡提出一些想法:

使用 GPT-4 遞歸調用自身會大大增加使用者進行的 API 調用總數,這應該是一個明确的标記。 請注意,這可以通過使用多個 API 密鑰來繞過,但更嚴格的 API 監管可能會使一個人無法獲得多個密鑰。

或許我們可以從在論壇、GitHub 和 Twitter 上抓取看起來可能産生這些東西的文章開始? 人們似乎對分享他們的創作非常感興趣,而且由于這些社群都支援開源,是以這種情況可能會持續一段時間。 上面已經提供了這方面的四個示例。

也許我們嘗試訓練對抗性 AI,使其越來越擅長檢測其他 AI 程式何時可能産生優化的代理行為。 甚至可能創造出一些真正弱小且受限的代理 AI,它們不知道自己正在接受對抗性測試。 這将是了解它們行為方式的起點。

但是,一旦我們檢測到它,我們能做什麼?

如果風險很低,可以禁止他們使用 API 并限制他們獲得另一個密鑰。

如果賭注很高,這可能已經太晚了。 這使得選項 2 看起來像是一個非常非常有效的起點。

如果我們檢測到足夠多的突出危險遞歸改進優化行為的例子并展示有影響力的人,是否足以讓他們擔心? 它會讓人們在正确的地方擔心他們會采取行動導緻更安全的後果嗎?

這可能是一個充滿希望的想法,但就我個人而言,工具使用、記憶體擴充和代理遞歸的發現在我看來足以讓我可能不會向公衆釋出 GPT-5。 OpenAI 邁出這一步将是一個重大舉措,将在全球範圍内引發沖擊波,這可能會讓所有人放慢腳步。

  • 選項 4:更深入的 LLM 對齊

或許我們可以讓 LLM 能夠在内部檢測它們是否被用于在提示時建立遞歸改進的優化器。

類似于 LLM 如何調整以識别可能在政治上不敏感的材料并巧妙地引導他們的響應,也許 LLM 可以識别促使他們建構危險的遞歸改進優化器的提示,并且 1) 不輸出響應和 2) 标記或禁止帳戶 試圖讓它這樣做。

對于頂級 AGI 公司來說,這似乎有利于承諾嘗試。 考慮到它們與例如 RLHF 到目前為止。 然而,要使用 RLHF 來防止遞歸優化 AI,必須對 AI 和編碼有深入了解的人才能向獎勵模型提供回報。 隻有他們才能解析出一段代碼是否看起來很危險。 這可能非常昂貴。

而且,開源社群似乎很可能會建立 GPT-4 驅動的 LLM,這些 LLM 不會很快擁有這些保護措施。 我們将不得不處理其後果。

  • 選項 5:關于 AGI 的更好讨論

人們對 AGI 有很多不同的看法,這表明他們在編寫代碼時是負責任的還是不負責任的。 如果我們能以某種方式建立一個資訊生态系統,引導人們 1) 以非常明确的方式應對風險,以及 2) 讓我們克服 AGI 的拟人化偏見,也許我們可以有争議地說服人們,創造這些危險技術在道德上是錯誤的 . 也許這實際上會減少嘗試這樣做的人。

考慮到改變公衆輿論有多麼困難,這似乎不太可能。 而且,依靠人們自願來確定安全确實不是一個長期的解決方案。 不過還是值得一提。

  • 選項 6:政府監督

制定大規模的政府監督計劃。 這在政治上顯然是不利的,并且會導緻一個許多人甯願避免的世界,包括我自己。 雖然,如果這是唯一的選擇,謝天謝地,現在似乎并非如此,也許應該探索一下。 讓我們不要把它作為唯一的選擇。

4、結束語

感覺好像整個 AI 安全世界都專注于對齊最先進的 AI 模型,而可能忽略了利用最先進的開源模型的更簡單模型的後果可能是什麼樣子。

我擔心這是一個很大的盲點,希望它能引起更多人的注意。

特别是考慮到 GPT-4 級别的模型可能會在 1-2 年内完成訓練,然後由外面的人開源。 不僅僅是 API 開源,而且他們所有的權重都被釋放出來玩。

這讓我期待非常早期和弱形式的代理 AGI 很快就會遍地開花,盡管我很樂意被其他人說服。

很想聽聽别人的想法。

原文連結:http://www.bimant.com/blog/llm-recursive-optimizing-safety-issues/