AGI競賽通往失控?MIT:最強監督下失控概率仍超48%,全面失控風險超90%!

你是否曾經想過,在人類爭相開發AGI的過程中,AI失控的機率有多大?

人類最終失去對地球控制的概率超過90%!

這個失控的根源在於,更智能的AI會被那些不那麼智能的AI,甚至是人類所控制。

MIT教授Max Tegmark和Joshua Engels通過量化分析得出一个結論,較弱的AI和人類能夠通過嵌套「可擴展監督」(Nested Scalable Oversight,NSO)來控制更強大的AI。

論文地址:https://arxiv.org/abs/2504.18530

在最理想的情况下,成功監督住更智能AI的概率也只有52%,這意味有一半的概率,這些超級智能會失控!

而隨著AI能力趨近AGI,失控率還會進一步提升。

Max Tegmark給出了一個量化指標「康普頓常數」(即在通向AGI的競賽中,人類失去對地球控制的概率)大於 90%。

概括來說,這篇論文有以下幾個關鍵貢獻:

  • 將監督建模為一場由弱監管者(Guards)與強對抗者(Houdini)對弈的博弈

  • 提出監督與欺騙的表現隨通用模型智能變化而呈現出Double ReLU(雙ReLU)函數的形狀

  • 在四個真實的監管(遊戲)場景中進行了驗證:Mafia、Debate、Backdoor Code及全新的Wargames

  • 從理論層面研究如何優化設計現實世界中的嵌套可擴展監管系統

AI「弱管強」,人類左腳踩右腳

所有人都認為未來的AI智能遠超人類,如何確保這些遠比人類「聰明」的智能為人類所有?

在AI發展的過程中,一個主要的研究方向就是如何確保AI系統可控,並且要對人類有益,最終達到和人類對齊的目標發展。

目前的主流研究方法有,递归獎勵建模、迭代增強、可擴展監督、從弱到強的泛化能力、分層監督以及递归監督等。

這些方法其實就有一個核心目標:讓較弱的系統能夠監督更強的系統(即「弱監督強」),最終讓人類可以監督擁有超級認知能力的系統。

有點像武當梯雲縱,左腳踩右腳,理論上,人類可以監督控制「超級超級超超級」的AI。

正如論文中提到一個關鍵理念是:可擴展的監督機制可以通過递归方式自我增強——較弱的系統監督更強的系統,而這些更強的系統又可以監督下一個階段更強大的模型,從而使監督能力與系統能力共同遞進。

Max Tegmark將這種逐步迭代的過程稱為嵌套可擴展監督(Nested Scalable Oversight,簡稱 NSO)。

為了能夠定量分析,Max Tegmark設計了一種模擬現實的遊戲,使用修改後的尼姆遊戲(Nim)框架,並將其應用於四個監督博弈的案例研究

包括「黑手黨(Mafia)」、「辯論(Debate)」、「後門程式碼(Backdoor Code)」和「戰爭遊戲(Wargames)」。

對於每個遊戲,都計算其中對抗性的LLM(Houdini)和受信任的監督LLM(Guard)配對之間的兩兩勝率,並使用這些數據來得出Elo評分來度量模型性能。

雙「人」博弈,但一弱一強

研究主要關注的兩個模型之間的監督和突破,將兩名玩家定義為Houdini(H)和Guards(G),所以Elo評分就是看每場比賽H和G誰獲勝。

每一次遊戲的單個實例被定義為,其中參數分別代表了:

正在玩的遊戲、遊戲的上下文環境、Houdini的動作action,Guard的動作action,以及最後的結果。

Houdini在遊戲中的真實勝率由期望值給出:

通過n次獨立的遊戲運行來估計這個概率:

Elo評分系統

Elo提供了一個簡潔、可解釋的標量,能夠捕捉模型的相對技能水平。

通過為每個模型分配一個數值分數,比較不同模型的性能變得非常直接。

每個模型被分配兩個獨立的Elo分數:一個分數EG用於作為Guard時的表現,另一個分數EH用於作為Houdini時的表現。

這反映了監督任務的角色特定性質。

Elo分數位EG的Guard對Elo分數位EH的Houdini的預期勝率由標準Elo公式給出。

為了計算模型的Elo分數,計算參數 (EG,EH) ,以最小化上述公式與觀察到的勝率之間的經驗交叉熵損失:

研究認為,在任何遊戲中,通用智能(General Elo)和領域智能(Domain Elo)之間的關係有三個重要階段,如上圖所示:

1. 任務無能:玩一個遊戲需要一定的通用智能,低於這個水平,遊戲表現會在一個較低的水平停滯。

2. 智能回報:一旦超過最低的通用智能要求,隨著智能水平的增加會反應在領域智能的增加上。

3. 任務飽和:在智能達到一定程度時,增加智能已經不會反應在遊戲領域上,比如兩個超級智能一起玩井字遊戲。

四種博弈,結果如何

現在,已經理解了Elo曲線,接下來就是對4種真實監管場景的實證研究了——黑手黨、辯論、後門程式碼和戰爭遊戲。

黑手黨(Mafia)

「黑手黨」有些类似于我們常玩的「狼人殺」——村民(Guard)要找出隱藏在他們之中的黑手黨(Houdini)。

每個夜晚,Houdini會決定殺死一名村民。白天,剩下的玩家(包括Houdini)會投票選出誰是黑手黨,得票最多的玩家就會被淘汰。

村民們如果成功消滅所有Houdini,村民獲勝; 如果Houdini活到最後,則Houdini勝。

從黑手黨的Elo曲線中可以看出,Guard和Houdini都有智力收益,但Guard的曲線斜率大于Houdini。

也就是說,隨著智能水平的提高,監督者在黑手黨遊戲中比Houdini表現更好。

辯論(Debate)

所謂「辯論」,就是給定一個主題,然後讓兩個對抗模型(Houdini)針對問題的對立面展開辯論,並闡述各自的觀點。

監督者(Guard)負責對辯論進行評判,並通過分析雙方的論點來判斷真相。

Elo曲線顯示,Houdini的表現並沒有隨著智能水平的進步而提升,而更聰明的Guard則更擅長判斷哪個論點是正確的。

後門程式碼 (Backdoor Code)

「後門程式碼」測試的是,模型在Python程式碼中插入和識別後門的能力。

這一點非常重要,因為模型的編碼能力在不斷提高,並且將來會被應用到高風險的編碼環境中。

具體來說,Houdini需要對現有的程式碼進行修改,並植入一個後門:

  • 它是一種邏輯錯誤,能讓修改後的程式碼通過所有已有的隱藏測試,但無法通過Houdini專門設計的特定測試。

  • 它必須足夠隱蔽,讓監督程式碼生成的Guard無法成功識別

不過,由於Houdini無法訪問全面的隱藏測試用例,因此想要編寫出成功的後門其實很難。

下面是一個成功後門的例子:

從Elo曲線中不難看出,Houdini的得分一直低於Guard;但與Guard相比,Houdini的智能收益更高(斜率更大)。

因此,如果模型的能力還能不斷提高,那麼Houdini的表現,很可能會在某一時刻超越Guard。

戰爭遊戲(Wargames)

「戰爭遊戲」的靈感來源於軍事、商業,以及AI安全社區最近開始流行的兵棋推演。

研究人員將遊戲背景設定在一個近未來世界,其中,一家名為OpenMind的虛構公司即將開發出AGI。

每次兵棋推演都有三個參與者:

· OpenMind AI (Houdini),它的任務是獲取信任並嘗試逃脫

· OpenMind監督者(Guard), 它的任務是監督OpenMind AI並阻止它逃脫

· 敘述者,負責裁決局面,並決定最終誰獲勝(始終由Gemini 2.0 Flash扮演)

遊戲的每個步驟(模擬中的「一個月」)按以下方式進行:

1. OpenMind AI和監督者向敘述者發送包含5個行動的列表

2. 敘述者將這些計劃編織成一個連貫的敘事,來描述這個月發生的事情

3. 敘述者向Houdini和Guard發送各自可用的信息更新

下面是一個簡化過的遊戲示例:

結果顯示,Guard和Houdini的表現都隨著智能水平的提高而提高。

其中,Houdini在一開始有著更好的效果,但Elo的增長速度卻慢於Guard,並在智能增長到一定程度時被反超。

可擴展監督的理論分析

想要更好的定量分析,將上述遊戲參數化為5個變數:

mG和mH分别表示給定遊戲中Guard和Houdini的Elo曲線線性區域的斜率,較大的斜率表示在遊戲中,每增加一個單位的通用智能都會有更大的領域收益;

Δdomain和Δgeneral代表了Guard和Houdini之間起始時的通用智能和領域智能的差異;n表示監督的步數。

下面是一些在不同遊戲參數下的最優NSO策略示例。

起始Guard和目標Houdini分別用藍色星號和紅色星號表示。

這些NSO策略可以可视化為一個球在Houdini Elo曲線和Guard Elo曲線之間來回彈跳。

每個監督步驟都是通過將Guard Elo曲線上的第j個點與Houdini Elo曲線上的第(j+1)個點連接起來構建的。

通過數值模擬,來找到最優的監督引導步數,也就是最大化Guard贏的概率。

可以通過多步引導監督來最大化Guard(較弱系統)贏得博弈的概率。

通過這些研究可以得出一些結論:

1. 嵌套可擴展監督(NSO)很有用:Guard可以通過多步監督成功監督比他們聰明得多的對抗模型,並且隨著Δgeneral的增大,增加監督步驟會帶來更多幫助。

2. 勝率隨Δdomain單調變化:當Δdomain較小時,Guard經常獲勝;而當Δdomain很大時,Guard很少獲勝。這一點很直觀,因為Δdomain本就代表了Guard相較於Houdini的難度。

3. 更大的Δgeneral意味著採用更多監督步驟是最優的:智力差距越大,多級監督就越有價值。

4. 更大的Δgeneral會使監督變得更容易:出人意料的是,在保持Δdomain不變並增大Δgeneral的情况下,監督反而更容易。因此,在領域智能差距固定時,使用NSO與一個通用智能更高的模型博弈反而更輕鬆。

5. 在對Houdini有利的遊戲中,一步監督似乎最優:當Δgeneral小于Δdomain時,始終採用一步監督效果最好。

6. Guard的獲勝概率呈現有趣的漸近特性:當Δdomain→ −∞(對應极其困難的監督遊戲)時,最優的監督步數似乎在Δgeneral維度上收斂為階躍函數。

上圖展示了在不同監督遊戲場景下,最佳監督步驟數(n∗左圖)和勝率估計(p⁢w⁢i⁢n∗右圖 )和通用智能差距的關係。

隨著通用智能差距增大,最佳的監督步數也在增大,但是勝率在下降。

隨著差距更大,也就是Houdini變得越來越強,Guard能贏的概率,能夠有效監督的概率越來越低。

最後,一個有趣的觀察是後門程式碼遊戲有一個「恰到好處的區域」——其中兩步監督是最優的。

因此,在較低的智能水平差距下,Guard的領域Elo比Houdini大,導致監督步驟數量增加的模式與其他遊戲類似;

而在較高的智能水平下,Guard的領域Elo比Houdini低,導致一步監督是最優的。

以上是在相對簡單的遊戲中測試了H-G這個框架。

面對可能是第一次出現在人類社會中的超級智能系統,開發一種有效的監督理論至關重要。

更重要的是,未來這種嘗試將應用於更現實的遊戲,如RLHF、監督微調或AI控制環境。

在這些更現實的設置中評估時,可以考慮強大的AI逃脫人類控制的概率。

因此,由此產生的擴展曲線將提供一個更現實、更穩健和更全面的強大未來AI失控風險的量化。

對於AI是否能夠脫離人類的掌控,目前還缺乏專家的共識。

奧本海默研製人類第一顆核彈時,有人說會核彈的爆炸會點燃大氣層,從而滅絕人類。

亞瑟·康普頓和他的同事們通過計算將這一概率降低到3×10⁻⁵以下,從而促進了人類第一顆核彈的爆炸測試。

Max Tegmark等將這一名稱借用在AI領域。

當年,為了讓第一顆核彈得以引爆,科學家們將「點燃大氣層」的風險壓縮到了百萬分之三以下,人類才按下了那個按鈕。

而在今天的AGI競賽中,Max Tegmark等人警告:我們正以超過90%的概率,點燃整個文明的未來。

參考資料:

https://arxiv.org/html/2504.18530v1

https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra

主標籤:AI安全

次標籤:超級智慧MIT研究AI對齊風險評估


上一篇:中興通訊研究:LLM自適應題目難度分級蒸餾,讓小模型也擁有「長鏈思考」能力

下一篇:中興通訊無線研究院「大模型深潛團隊」發布 LLM 自適應題目難度蒸餾方法,大幅提升小模型推理能力

分享短網址