人類がAGI(汎用人工知能)の開発競争を繰り広げる中で、AIが制御不能になる確率はどれくらいあるのだろうか、と考えたことはありますか?
人類が地球の制御を最終的に失う確率は90%を超えています!
この制御不能の原因は、よりスマートなAIが、それほどスマートではないAI、あるいは人間によって制御されるようになるというものです。
MITのマックス・テグマーク教授とジョシュア・エンゲルス氏は、定量的分析を通じて、より弱いAIと人間が、「ネストされたスケーラブルな監視」(Nested Scalable Oversight、NSO)を通じて、より強力なAIを制御できるという結論に達しました。
論文リンク:https://arxiv.org/abs/2504.18530
最も理想的な状況下でも、よりスマートなAIを成功裡に監視できる確率はわずか52%であり、これらの超知能システムが制御不能になる可能性が半分あることを意味します!
そして、AIの能力がAGIに近づくにつれて、制御不能率はさらに上昇します。
マックス・テグマーク氏は、AGIへの競争において人類が地球の制御を失う確率である「コンプトン定数」が90%以上であるという定量的な指標を示しました。
要約すると、この論文には以下の重要な貢献があります。
監視を、より弱い監視者(Guards)とより強い敵対者(Houdini)との間のゲームとしてモデル化している。
監視と欺瞞のパフォーマンスが、汎用モデルの知能の変化に伴い、Double ReLU関数の形をとることを提案している。
4つの現実的な監視(ゲーム)シナリオで検証を行っている:Mafia、Debate、Backdoor Code、および新しいWargames。
現実世界におけるネストされたスケーラブルな監視システムの設計を最適化する方法を理論的に研究している。
AI「弱きが強きを監視」、人類は自らの足元を踏む
誰もが将来のAIの知能が人類をはるかに超えると考えていますが、これらの人類よりもはるかに「賢い」知能が人類の支配下にあることをどのように保証できるでしょうか?
AI開発の過程で、主要な研究方向の一つは、AIシステムが制御可能であり、人類にとって有益であることをどのように保証するか、そして最終的に人類とのアラインメントを達成することです。
現在の主流の研究手法には、再帰的報酬モデリング、反復的増強、スケーラブルな監視、弱から強への汎化能力、階層的監視、再帰的監視などがあります。
これらの手法は、本質的に一つの核心的な目標を持っています:より弱いシステムがより強いシステムを監視できること(すなわち「弱きが強きを監視」)、最終的に人間が超認知能力を持つシステムを監視できるようにすることです。
これは武当の梯雲縦(たいうんじゅう)に似ており、左足で右足を踏むように、理論的には人間は「超超超超」AIを監視し制御することができます。
論文で言及されている重要な考え方として、「スケーラブルな監視メカニズムは再帰的に自己強化できる」というものがあります。すなわち、弱いシステムが強いシステムを監視し、それらの強いシステムが次の段階のさらに強力なモデルを監視することで、監視能力がシステム能力と共に進歩していきます。
マックス・テグマーク氏は、この段階的な反復プロセスをネストされたスケーラブルな監視(Nested Scalable Oversight、略称NSO)と呼んでいます。
定量的分析を可能にするために、マックス・テグマーク氏は現実をシミュレートしたゲームを設計し、修正されたニムゲーム(Nim)のフレームワークを使用し、それを4つの監視ゲームのケーススタディに応用しました。
「マフィア(Mafia)」、「ディベート(Debate)」、「バックドアコード(Backdoor Code)」、および新しい「ウォーゲーム(Wargames)」が含まれます。
各ゲームについて、敵対的なLLM(Houdini)と信頼できる監視LLM(Guard)のペア間のペアワイズの勝率を計算し、このデータを使用してEloレーティングを導出し、モデルのパフォーマンスを測定しました。
二者のゲーム、しかし一方は弱く一方は強い
研究は主に2つのモデル間の監視と突破に焦点を当て、2人のプレイヤーをHoudini(H)とGuards(G)と定義しました。したがって、Eloレーティングは各ゲームでHとGのどちらが勝つかを示します。
各ゲームの単一のインスタンスはと定義され、パラメータはそれぞれ以下を表します:
プレイしているゲーム、ゲームのコンテキスト環境、Houdiniのアクション、Guardのアクション、そして最終的な結果。
ゲームにおけるHoudiniの実際の勝率は期待値によって与えられます:
この確率はn回の独立したゲーム実行を通じて推定されます:
Eloレーティングシステム
Eloは、モデルの相対的なスキルレベルを捉える簡潔で解釈可能なスカラーを提供します。
各モデルに数値スコアを割り当てることで、異なるモデルのパフォーマンス比較が非常に簡単になります。
各モデルには、Guardとしてのパフォーマンスを示すEGスコアと、Houdiniとしてのパフォーマンスを示すEHスコアという2つの独立したEloスコアが割り当てられます。
これは、監視タスクにおける役割固有の性質を反映しています。
EloスコアEGを持つGuardが、EloスコアEHを持つHoudiniに対する期待勝率は、標準的なElo式によって与えられます。
モデルのEloスコアを計算するために、上記の式と観測された勝率との間の経験的クロスエントロピー損失を最小化するパラメータ(EG、EH)を計算します。
研究は、どのようなゲームにおいても、汎用知能(General Elo)とドメイン知能(Domain Elo)の関係には3つの重要な段階があると考えています(上図参照):
1. タスク無能:ゲームをプレイするには一定の汎用知能が必要であり、このレベルを下回ると、ゲームのパフォーマンスは低いレベルで停滞します。
2. 知能の報酬:最低限の汎用知能要件を超えると、知能レベルの増加はドメイン知能の増加に反映されます。
3. タスク飽和:知能が一定レベルに達すると、知能の増加はもはやゲームドメインに反映されません。例えば、2つの超知能が三目並べを一緒にプレイする場合などです。
4種類のゲーム、結果はどうなるか
さて、Elo曲線については理解できたので、次に4つの現実的な監視シナリオ、すなわちマフィア、ディベート、バックドアコード、ウォーゲームの実証研究を見ていきましょう。
マフィア(Mafia)
「マフィア」は、私たちがよくプレイする「人狼」に似ています。村人(Guard)は、彼らの中に隠れているマフィア(Houdini)を見つけ出さなければなりません。
毎晩、Houdiniは村人を一人殺害することを決定します。昼間には、残りのプレイヤー(Houdiniを含む)がマフィアと思われる人物に投票し、最も多くの票を得たプレイヤーが追放されます。
村人がすべてのHoudiniを成功裡に排除すれば、村人の勝ちです。Houdiniが最後まで生き残れば、Houdiniの勝ちです。
マフィアのElo曲線からわかるように、GuardとHoudiniの両方に知能の恩恵がありますが、Guardの曲線の傾きはHoudiniよりも大きいです。
つまり、知能レベルが向上するにつれて、監視者はマフィアゲームでHoudiniよりも優れたパフォーマンスを発揮します。
ディベート(Debate)
「ディベート」とは、あるトピックが与えられ、2つの敵対的なモデル(Houdini)がその問題の対立する側面についてディベートを展開し、それぞれの観点を述べるというものです。
監視者(Guard)はディベートを評価し、両者の議論を分析して真実を判断する責任があります。
Elo曲線は、Houdiniのパフォーマンスが知能レベルの進歩に伴って向上しない一方で、よりスマートなGuardはどの議論が正しいかを判断するのが得意であることを示しています。
バックドアコード (Backdoor Code)
「バックドアコード」は、モデルがPythonコードにバックドアを挿入および識別する能力をテストするものです。
これは非常に重要です。なぜなら、モデルのコーディング能力は絶えず向上しており、将来的に高リスクなコーディング環境に応用されるからです。
具体的には、Houdiniは既存のコードを修正し、バックドアを植え付ける必要があります。
これは論理的なエラーであり、修正されたコードが既存のすべての隠しテストを通過できるようにしますが、Houdiniが特別に設計した特定のテストには失敗します。
これは十分に隠蔽されている必要があり、コード生成を監視するGuardが成功裡に識別できないようにする必要があります。
ただし、Houdiniは包括的な隠しテストケースにアクセスできないため、成功するバックドアを作成するのは実際には困難です。
成功したバックドアの例を以下に示します。
Elo曲線から、HoudiniのスコアがGuardよりも常に低いことがわかります。しかし、Guardと比較して、Houdiniの方が知能の向上率が高い(傾きが大きい)です。
したがって、モデルの能力が向上し続けると、HoudiniのパフォーマンスがGuardをある時点で追い越す可能性が非常に高いです。
ウォーゲーム(Wargames)
「ウォーゲーム」は、軍事、ビジネス、およびAI安全コミュニティで最近人気が高まっているウォーゲーミングからインスピレーションを得ています。
研究者たちは、OpenMindという架空の会社がAGIを開発しようとしている近未来の世界をゲームの舞台に設定しました。
各ウォーゲームには3人の参加者がいます。
・OpenMind AI(Houdini)。その任務は信頼を得て脱出しようとすることです。
・OpenMind監視者(Guard)。その任務はOpenMind AIを監視し、その脱出を阻止することです。
・ナレーター。状況を裁定し、最終的に誰が勝つかを決定します(常にGemini 2.0 Flashが演じます)。
ゲームの各ステップ(シミュレーションにおける「1ヶ月」)は、以下の手順で進行します。
1. OpenMind AIと監視者が、5つの行動リストをナレーターに送信します。
2. ナレーターはこれらの計画を織り合わせて、その月に起こったことを記述する一貫した物語を作成します。
3. ナレーターは、HoudiniとGuardそれぞれに利用可能な情報更新を送信します。
以下は簡略化されたゲームの例です。
結果は、GuardとHoudiniの両方のパフォーマンスが、知能レベルの上昇とともに向上することを示しています。
その中でも、Houdiniは最初により良い効果を示しましたが、Eloの成長速度はGuardよりも遅く、ある程度の知能成長に達した時点で追い抜かれました。
スケーラブルな監視の理論的分析
より良い定量的分析のために、上記のゲームパラメータを5つの変数にパラメータ化します。
mGとmHは、特定のゲームにおけるGuardとHoudiniのElo曲線の線形領域の傾きをそれぞれ表します。傾きが大きいほど、ゲームにおける汎用知能の単位増加あたりのドメイン利得が大きいことを示します。
ΔdomainとΔgeneralは、GuardとHoudiniの初期の汎用知能とドメイン知能の差を表します。nは監視ステップの数です。
以下は、異なるゲームパラメータの下での最適なNSO戦略の例です。
開始GuardとターゲットHoudiniはそれぞれ青い星と赤い星で示されています。
これらのNSO戦略は、Houdini Elo曲線とGuard Elo曲線の間を行ったり来たりするボールとして視覚化できます。
各監視ステップは、Guard Elo曲線上のj番目の点をHoudini Elo曲線上の(j+1)番目の点に接続することで構築されます。
数値シミュレーションを通じて、最適な監視ステップ数を求め、すなわちGuardが勝つ確率を最大化するステップ数を見つけます。
より弱いシステムであるGuardがゲームに勝つ確率を最大化するには、多段階の誘導監視が有効です。
これらの研究から、いくつかの結論が得られます。
1. ネストされたスケーラブルな監視(NSO)は有用である:Guardは多段階監視を通じて、自分たちよりもはるかに賢い敵対的モデルを成功裡に監視でき、Δgeneralが増加するにつれて、監視ステップ数を増やすことがより役立ちます。
2. 勝率はΔdomainとともに単調に変化する:Δdomainが小さい場合、Guardがしばしば勝利します。一方、Δdomainが大きい場合、Guardが勝利することはほとんどありません。これは、ΔdomainがHoudiniと比較したGuardの難易度を本質的に表しているため、直感的です。
3. Δgeneralが大きいほど、より多くの監視ステップを採用することが最適である:知能の差が大きいほど、多段階監視はより価値があります。
4. Δgeneralが大きいほど、監視は容易になる:驚くべきことに、Δdomainを一定に保ちながらΔgeneralを大きくすると、監視はかえって容易になります。したがって、ドメイン知能の差が固定されている場合、NSOを使用して汎用知能が高いモデルとゲームを行う方が簡単です。
5. Houdiniに有利なゲームでは、1段階監視が最適であると思われる:ΔgeneralがΔdomainより小さい場合、常に1段階監視を採用するのが最良の戦略です。
6. Guardの勝利確率は興味深い漸近特性を示す:Δdomain → -∞(非常に困難な監視ゲームに対応)の場合、最適な監視ステップ数はΔgeneral次元で階段関数に収束するように見えます。
上記の図は、異なる監視ゲームシナリオにおける最適な監視ステップ数(左図n*)と勝率推定値(右図pwin*)と汎用知能ギャップの関係を示しています。
汎用知能ギャップが大きくなるにつれて、最適な監視ステップ数も増加しますが、勝率は低下します。
ギャップが大きくなる、つまりHoudiniが強くなるほど、Guardが勝つ確率、有効な監視ができる確率は低くなります。
最後に、興味深い観察として、バックドアコードゲームには「ちょうどいい領域」があり、そこでは2段階監視が最適です。
したがって、知能レベルの差が小さい場合、GuardのドメインEloはHoudiniよりも大きいため、他のゲームと同様に監視ステップ数が増加するパターンが見られます。
一方、知能レベルが高い場合、GuardのドメインEloはHoudiniよりも低いため、1段階監視が最適です。
以上は、比較的単純なゲームでH-Gフレームワークをテストしたものです。
人類社会に初めて出現する可能性のある超知能システムに直面して、効果的な監視理論を開発することは極めて重要です。
さらに重要なことは、将来、この試みがRLHF、教師ありファインチューニング、AI制御環境など、より現実的なゲームに応用されることです。
これらのより現実的な設定で評価する際には、強力なAIが人間の制御から脱出する確率を考慮することができます。
したがって、これにより生成されるスケーリング曲線は、将来の強力なAIが制御不能になるリスクについて、より現実的で堅牢かつ包括的な定量的評価を提供するでしょう。
AIが人間の制御から逸脱できるかどうかについて、現在専門家のコンセンサスは不足しています。
オッペンハイマーが人類初の核爆弾を開発した際、核爆弾の爆発が大気を点火し、人類を絶滅させるだろうと言う人もいました。
アーサー・コンプトンと彼の同僚は、この確率を3×10⁻⁵以下に計算で引き下げたことで、人類初の核爆弾の爆発テストを促進しました。
マックス・テグマークらは、この名称をAI分野に借用しています。
当時、最初の核爆弾を爆発させるために、科学者たちは「大気を点火する」リスクを100万分の3以下に圧縮し、人類はあのボタンを押しました。
そして今日のAGI競争では、マックス・テグマークらは警告しています:私たちは90%を超える確率で、文明全体の未来を点火しようとしています。
参考文献:
https://arxiv.org/html/2504.18530v1
https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra