「絶対零度」:ゼロデータ自己進化AI推論手法がSOTAを超える

最近、画期的なAI研究がひっそりと発表され、人工知能の学習方法に関する従来の認識を覆しました。「Absolute Zero」と名付けられたこの革新的な手法は、AIシステムが人間の注釈付きデータに全く依存せず、自己対局と自己進化を通じて、複数の複雑な推論タスクで既存の最先端(SOTA)モデルを凌駕することを実現しました。このブレークスルーは、AIトレーニングの将来の道を再定義する可能性があります。

1. 従来のAI学習のボトルネック:人間データへの依存

現在の最先端の大規模言語モデル(LLMs)は、「検証可能な報酬による強化学習(RLVR)」という手法に主に依存し、推論能力で顕著な進歩を遂げています。しかし、これらの手法は、専門家が綿密にキュレーションした問題-解答データセットに高度に依存しています。

この依存は深刻な課題をもたらします:

(1)持続不可能な人的コスト:モデル能力が向上するにつれて、高品質なデータセット構築の難易度は指数関数的に増加します。

(2)開発ボトルネック:同様のスケーラビリティ問題はLLMの事前学習分野でも明らかになっています。

(3)潜在的な制限:AIシステムが発展を続け、人間知能を超える可能性がある場合、人間が設計したタスクへの過度の依存は、その自律的な学習・成長能力を制限する可能性があります。

2. Absolute Zero:AI自己進化の新しいパラダイム

研究チームが提案した「Absolute Zero」パラダイムは、この現状を完全に覆します。このパラダイムでは、モデルが学習可能性を最大化するタスクを提案することと、それらのタスクを効果的に解決することを同時に学び、自己対局を通じて進化します。そして、外部データには全く依存しません。

この手法の核となるメカニズムは以下の通りです:

(1)二重の役割:同一のモデルが「質問者」と「解答者」の両方の役割を同時に演じます。

(2)環境フィードバック:コード実行環境を検証可能なフィードバック源として利用し、トレーニングの安定性を確保します。

(3)3つの推論モード:演繹(出力予測)、アブダクション(入力推論)、帰納(プログラム合成)という3つの補完的な推論モードを導入します。

図1

3. 結果:ゼロデータトレーニングがSOTAを超える

図2

図3

研究チームは、このパラダイムに基づいて「Absolute Zero Reasoner」(AZR)を開発し、大規模な実験評価を行いました。結果は驚くべきものでした:

(1)特定のドメインの人間の注釈付きデータに全く触れていないにも関わらず、AZRの数学およびプログラミング推論タスクにおける全体的なパフォーマンスは、以前のすべてのモデルを凌駕しました。

(2)コード生成タスクでは、AZRはプログラミングデータセットで専門的にトレーニングされたモデルより0.3パーセントポイント高くなりました。

(3)数学推論では、AZRは驚異的なクロスドメイン汎化能力を示し、ベースモデルと比較して15.2パーセントポイント向上しました。

これらの結果は、人間の設計した特定のドメインのトレーニングデータがなくても、AIシステムが自己対局を通じて強力な推論能力を開発できることを驚くほど証明しています。

図4

4. 詳細分析:AZRはどのように機能するのか?

図5

(1) 自己生成タスクと自己評価

AZRは、統合された大規模言語モデルを通じて、同時に2つの役割を演じます:

1) 質問者:新しい推論タスクを作成し、タスク空間の多様性と広範な網羅性を促進します。

2) 解答者:新しく提示されたタスクを解決しようとし、環境からフィードバックを受け取ります。

(2) 3つの核となる推論モード

AZRは、コード実行環境を柔軟なインターフェースおよび検証可能な環境として利用し、3つの異なる推論モードを通じて学習します:

1) 演繹(Deduction):プログラムと入力が与えられたとき、出力を予測し、段階的な論理推論を捉えます。

2) アブダクション(Abduction):プログラムと出力が与えられたとき、もっともらしい入力を推論します。試行錯誤やオンライン検索に似ています。

3) 帰納(Induction):入力-出力例のセットから、汎化可能なプログラムを合成します。部分的な情報からの汎化が必要です。

(3) 報酬設計

質問者の報酬関数は、意味のある学習可能性を持つタスク(簡単すぎず、解決不可能でもない)の生成を奨励します:

1) タスクが簡単すぎる(成功率=1):学習信号がほとんどありません。

2) タスクが難しすぎる(成功率=0):同様に学習信号がほとんど提供されません。

3) 中程度の難易度のタスク:最も豊富なフィードバックと学習可能性を提供します。

図6

5. 発見:ますます人間らしい思考パターン

研究の過程で、チームはいくつかの興味深い現象を発見しました:

(1)コーディング能力は全体の推論能力を増幅させる:初期のQwen-Coder-7bモデルは、標準のQwen-7bより数学のパフォーマンスが3.6ポイント低かった。しかし、AZRトレーニング後、コード専門モデルは驚くべきことに数学で標準モデルを0.7ポイント上回り、強力なコーディング能力がAZRトレーニング後の全体の推論能力を増幅させる可能性を示しています。

(2)顕著なクロスドメイントランスファー:RLVRを使用した従来のコード専門モデルは、数学の精度が平均でわずか0.65ポイントしか向上しなかったのに対し、AZRでトレーニングされたモデルは数学で平均10.9から15.2ポイント向上し、極めて強力な汎化推論能力を示しました。

(3)モデルが大きいほど、利益は顕著:パフォーマンスの向上はモデルサイズに比例します:3B、7B、14Bモデルはそれぞれ+5.7、+10.2、+13.2ポイント向上し、スケールアップがAZRにとって継続的に有益であることを示しています。

(4)中間計画能力が自然に出現:コード帰納タスクを解決する際、AZRはコメントとコードの中に段階的な計画を頻繁に織り交ぜます。これはReActプロンプティングフレームワークに似ています。この行動は、DeepSeek Prover v2(671B)のようなより大きな形式数学モデルでも観察されており、長形式の回答を生成する際に中間思考の草稿を使用することをモデルに許可することが他のドメインでも有益である可能性を示唆しています。

(5)推論モードによって認知行動とトークン長が異なる:異なる種類のタスクは異なる認知行動を示します。アブダクションタスクは、モデルが出力が一致するまで試行を続けるため最も成長が大きく、演繹と帰納はより穏やかに成長します。

6. 展望:経験時代の始まり

この研究は、AI推論モデルが新しい段階、「経験時代」の始まりを迎えたことを示します。モデルに与えられたタスクを解決させるだけでなく、自身の学習タスク分布を定義し進化させることを可能にすることで、人間データのような特権的なリソースを大幅に削減しても、多様な推論タスクで強力なパフォーマンスを達成できることを研究は示しています。

将来の研究方向には以下が含まれる可能性があります:

(1)ワールドワイドウェブ、形式数学言語、ワールドシミュレーター、さらには現実世界など、検証可能なフィードバック源としてのさらなる環境の探索。

(2)より複雑なエージェントタスクや科学実験などの異なる応用分野への拡張。

(3)マルチモーダル推論モデルの探索。

(4)より効果的な探索/多様性報酬メカニズムの設計。

このブレークスルーは、最終的に推論モデルを人間がキュレーションしたデータの制限から解放し、AIシステムが自身の経験を通じて継続的に進化する新しい時代を切り開く可能性があります。

「Absolute Zero」パラダイムは、AIトレーニングへの新しいアプローチを提供し、AI学習は人間データに依存しなければならないという私たちの固有の仮説に挑戦しています。それは、AIシステムが自己対局と環境フィードバックを通じて、人間の直接的な指導なしに、強力な推論能力を開発できることを示しています。

この発見は理論的に重要なだけでなく、AIモデルのトレーニング方法を実践的に根本的に変える可能性もあります。モデル能力が向上し続けるにつれて、人間が提供するタスクは超知能システムにとってますます挑戦的でなくなる可能性があり、「Absolute Zero」パラダイムは、真に自律的な学習AIに向けた重要な一歩となるかもしれません。

論文タイトル:Absolute Zero: Reinforced Self-play Reasoning with Zero Data

論文リンク:https://arxiv.org/abs/2505.03335

おすすめ記事

NVIDIA、Llama-Nemotronシリーズ推論モデルを発表、Zero to One:AIエージェント設計パターンの詳細解説

RM-R1:報酬モデリングを推論プロセスとして扱う革新的な手法

DeepSeek-R1リリースから100日:複製研究と推論言語モデルに関するレビュー

メインタグ:AI研究

サブタグ:機械学習推論自己対局データ不要学習


前の記事:AppleとAnthropic、Xcode向けAIコーディングプラットフォームで協力

次の記事:訓練データを書き換えることで、LLMの数学とコードの性能を大幅に向上

短いURLをシェア