Absolute Zero Reasoner (AZR) と呼ばれる新しい手法が紹介されています。これは、人間からの入力なしにモデルが推論スキルを自律的に進化させる方法を提供します。
著者: Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*
所属機関:
- 清華大学
- 北京汎用人工知能研究院 (BIGAI)
- ペンシルベニア州立大学
論文リンク: https://arxiv.org/abs/2505.03335
コードリンク: https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
はじめに
人工知能モデルは、人間データなしにどのように自律的に学習できるのでしょうか?
人間が選別したサンプルから学習することで、LLMの推論能力は継続的に向上していますが、専門家が丁寧に作成したデータへの依存がボトルネックとなっています。モデルの能力が向上するにつれて、高品質な訓練データセットを維持する労力は持続不可能になっています。
本稿では、新しい手法であるAbsolute Zero Reasoner (AZR) を紹介します。これは、統合された大規模言語モデル (LLM) が、同時にタスク提案者 (Proposer) と解答者 (Solver) の役割を果たし、実行可能な環境 (Pythonインタープリタなど) との対話を通じて強化学習ベースの自己対戦訓練を行います。人間がアノテーションしたデータを一切使用していないにもかかわらず、AZRは数学およびプログラミングの推論タスクにおいて、数万のサンプルを使用した複数のSOTAモデルを上回っています。Absolute Zeroパラダイムを図1に示します。
図1. Absolute Zero パラダイム
教師あり学習は、行動クローン化のために人間がキュレーションした推論軌跡に依存します。検証済み報酬に基づく強化学習は、エージェントが推論を自律的に学習することを可能にしますが、それでも専門家が定義した学習分布と、ドメイン専門知識と人間の入力が必要な、厳選されたQ&Aペアのセットに依存します。対照的に、本論文では、人間がキュレーションしたデータを一切使用せずに推論モデルを訓練するための新しいパラダイムであるAbsolute Zeroを導入します。エージェントが学習可能性のために最適化されたタスクを自律的に提案し、統一されたモデルを使用してこれらのタスクを解決する方法を学習することを想定しています。エージェントは、検証可能なフィードバックを提供する環境と対話することで学習し、人間による介入なしに信頼性の高い継続的な自己改善を達成します。
研究動機
- 従来の教師あり学習 (SFT) は、推論プロセスに手動アノテーションが必要であり、拡張性がありません。
- 検証可能な報酬を伴う強化学習 (RLVR) は、一部の問題を軽減しますが、依然として人間がQ&A分布を提供する必要があります。
- 大規模モデルの能力向上後、手動で設計されたタスクからの訓練ゲインは徐々に低下します。
- 自己提案、自己解決、自己学習のパラダイム、すなわちAbsolute Zeroパラダイムが喫緊に求められています。
論文貢献
- Absolute Zeroパラダイムを提案:ゼロデータ、ゼロ外部Q&A、純粋な自己対戦強化学習。
- Absolute Zero Reasoner (AZR) を実装:様々な推論タスクをブートストラップ学習するための統合モデル。
- 唯一の報酬源として実行可能な環境 (コードエグゼキュータ) を使用。
- 3つの基本的な推論タスクを設計:帰納、演繹、アブダクション。
- AZRは、人間のデータを一切使用せずに、コードおよび数学タスクで複数のSOTAモデルを上回る。
- マルチタスク強化学習のための新しい優位性推定器TRR++を提案。
Absolute Zero Reasoner の動作原理
図2に示すAZRモデルは、3つの主要な推論モードによって導かれるタスク作成と問題解決の連続的なサイクルを採用しています。それは、人間による介入なしにタスクを検証し、解決策をチェックし、客観的なフィードバックを提供するコードエグゼキュータに依存しています。
(1) 二重の役割:
AZRはLLMを同時に次の両方として活用します:
- タスク提案者 (Proposer): 学習可能な推論タスクを生成します。
- タスク解答者 (Solver): これらのタスクを解決しようとします。
提案者と解答者は、同じモデルが2つの機能を果たします。提案者として、関数を記述したり出力を予測したりするようなコーディングタスクを生成し、これらのタスクが簡単すぎず、また難しすぎないことを保証します。解答者として、これらのタスクを実行しようとし、試行錯誤を通じて推論能力を向上させます。報酬は、提案者が「A」タスク (中程度の難易度) を作成することでポイントを獲得し、解答者は正確性に基づいて評価されるように構成されています。
(2) 3つの推論モード
タスクは論理的推論に触発され、3つのタイプに分類されます:
演繹: コードと入力に基づいて出力を予測する (例: "x=3 の場合、f(x)=x+2 は何を返しますか?")。
アブダクション: 特定の出力を生成した入力を推測する (例: "f(x)=5 となるxを見つけなさい")。
帰納: 与えられた入出力例に一致するコードを記述する (例: "これらのペアをマッピングする関数を作成しなさい")。
目的関数は、提案されたタスクの学習可能性と解決されたタスクの正確性の両方を考慮し、学習プロセスを最適化することを目的としています。
図2. AZR 全体プロセス
モジュール1:推論タスクの3分類
各タスクは三つ組 (プログラム、入力、出力) の形式です:
- 演繹 (Deduction): プログラムと入力が与えられた場合、出力を予測します。
- アブダクション (Abduction): プログラムと出力が与えられた場合、プログラムが入力に適用されたときにその出力を生成するような入力を予測します。
- 帰納 (Induction): 複数の入出力例が与えられた場合、それらを生成するプログラムを帰納します。
モジュール2:タスク報酬メカニズム
- 提案者タスク報酬 (学習可能性): タスクが簡単すぎたり難しすぎたりする場合、報酬は与えられません。中程度の難易度のタスクが最大の訓練ゲインを提供します。
- 解答者タスク報酬 (正確性): 正しい解答に対して報酬が与えられます。
- 最終報酬: フォーマット不適合に対するペナルティを考慮します:
- フォーマットが正しく、出力も正しい場合の合法的な出力。
- フォーマットは正しいが、出力が間違っている場合。
- フォーマットが間違っている場合。
モジュール3:自己対戦訓練プロセス
手順は次のとおりです:
- 3種類のタスクバッファ (演繹、アブダクション、帰納) を初期化します。
- 各ラウンド:
- 新しいタスクを提案します。
- 環境で合法性を検証します。
- バッファに追加します。
- 与えられたタスクを解決します。
- 報酬計算 + 強化学習更新 (TRR++を使用)。
強化学習にはTask-Relative REINFORCE++ (TRR++)を使用します。
実験結果
実験設定
- モデル: Qwen2.5シリーズ (3B / 7B / 14B)、Llama3.1-8B。
- データ: 人間データなし。
- 評価:
- 数学: AIME, OlympiadBench, AMC, MATH500, Minerva など。
- プログラミング: HumanEval+, MBPP+, LiveCodeBench など。
主な結果
Absolute Zero Reasonerの利点:
Absolute Zero Reasonerモデルは、人間データなしで完全に訓練でき、その性能は数千の専門家サンプルでファインチューニングされたモデルさえも凌駕します。HumanEval+やMBPP+などのコーディングベンチマークで、新たなSOTAスコアを樹立しました。
数学的推論 (AIME, AMC) においては、コードタスクのみで訓練された場合でも、強力なクロスドメイン汎化能力を示しています。主な発見は以下の通りです:
スケーリングの利点: より大きな基盤モデル (7B→14Bパラメータ) は、より大きな性能向上を示しており、モデルが成長するにつれて性能が継続的に向上することを示唆しています。
コードによる推論能力の向上: AZR訓練後、コードで事前訓練されたモデルは、汎用モデルよりも数学において優れた性能を示しており、プログラミングと抽象的推論の間の相乗効果を示唆しています。
緊急計画: 人間と同様に、AZRはコードにステップバイステップのコメントを追加し始め、ReActプロンプトのような技術を模倣しています。これは明示的に教えられていない行動です。
しかし、いくつかの注意点もあります。大規模なモデルは、推論チェーンで時には劣った結果を生み出すことがあり、これは安全対策の必要性を浮き彫りにしています。さらに、自律システムは予期せぬ挙動を示す可能性があり、タスクが抽象的になるにつれて、その解決策を検証することがますます困難になります。
論文要約
全体として、AZRの主な特徴は以下の通りです:
- 人間データ不要で、性能はSOTAを超える。
- 初期コーディング能力を持つモデルの方が向上速度が速い。
- 異なるタスクタイプは補完的:全て保持する方が性能が最も良い。
- モデルは徐々に「中間コメント計画」行動を示す。
- 異なる推論タスクは異なる「認知的行動」を示す。
- Llamaモデルは時に奇妙な出力を示し、セキュリティ上の懸念を提起する。