新智元レポート
編集:peter東 英智
【新智元概要】シンガポール国立大学などの研究者たちが、人間が推論する心理学的原理を模倣した「メタ能力アライメント」訓練フレームワークを開発し、演繹、帰納、アブダクションの能力をモデル訓練に統合しました。実験結果は、この方法が数学およびプログラミングタスクにおけるモデルのパフォーマンスを向上させるだけでなく、ドメイン横断的なスケーラビリティも示していることを示しています。
AIが数学、プログラミング、科学の難問を解こうとするとき、それはしばしばひらめきを得た天才のように振る舞いますが、その能力を安定して発揮することは困難です。
シンガポール国立大学、清華大学、Salesforce AI Research の研究者たちは、モデルに堅牢な推論能力を与え、ひらめきを常態化させる革新的な訓練フレームワーク「メタ能力アライメント」を提案しました。
論文リンク:https://arxiv.org/abs/2505.10554
彼らは、大規模推論モデルの能力をより制御可能で信頼性の高いものにする訓練方法を提案しました。これにより、数学、プログラミング、科学の問題に対する大規模モデルの基本的な推論能力を効率的かつ体系的に育成することができます。
その突破を理解するには、「アハ体験」とは何かを知る必要があります。これは、純粋な強化学習を用いて大規模モデルを訓練する際に、自己修正、巻き戻し、検証などの高度な推論行動が偶発的に現れることを指します。
DeepSeek-R1の成功は、事前訓練された基盤モデルや命令チューニングされたモデルから始めて、ルールベースの純粋な強化学習が、長鎖思考推論、自己修正、自己反省などの高度な行動を自発的に引き出すことができることを示しています。
しかし、これらの創発的行動の頻度と一貫性は常に予測不可能で制御不能であり、これが大規模モデルの推論能力のスケーラビリティと信頼性を制限していました。
実験方法:心理学を模倣し、大規模モデルに推論能力を安定的に発現させる
「アハ体験」を超えるためには、心理学者パースが提唱した古典的な推論の三元組に頼る必要があります。この理論は、人間の推論能力が仮説、観察、規則という3つの構成要素の組み合わせに分けられ、任意の2つから3つ目を導き出せると指摘しています。
例えば、観察と仮説に基づいて帰納的に一般化可能な規則を得る。規則と仮説に基づいて演繹的に将来の可能な観察結果を推論する。そして、規則と観察に基づいて仮説を得るプロセスは、アブダクションと呼ばれます。
図1:パースが提唱した推論のメタ能力三元組
この分類に基づいて、研究者たちは、大規模モデルの訓練に使用される上記3種類の推論インスタンスを自動生成し、大規模モデルの出力結果を自動で検証できるプログラムを構築しました。プログラムが生成するタスクは、一般的なデータを組み合わせたもので、訓練データセットには含まれていないため、モデルのメタ推論能力を訓練することができます。
例えば、演繹的推論(H+R⇒O)では、モデルに論理規則Rのセットと仮説として真値割り当てHの候補が与えられ、全体的な観察O(すなわち、全ての公式が真であること)が成立するかを検証する必要があります。
帰納的推論(H+O⇒R)では、モデルに観測可能な項目Oと不完全な入力Hが提供され、基底にある生成規則Rを抽象化する必要があります。アブダクション推論(O+R⇒H)では、モデルに観測結果Oと規則グラフRが与えられ、結論を論理的に説明できる最小限の隠れた仮説集合Hを回復するために逆追跡する必要があります。
以下は、著者が提供する訓練データの一例で、プロンプトと正しい応答の形式で示されています。
各訓練インスタンスは自動生成器によって生成され、バリデーターによって選別されるため、大規模で自己検証可能な訓練データが生成され、手動でのアノテーションは一切不要です。
図2:モデル訓練の3段階フローの概要:演繹、帰納、アブダクションのエキスパートをアライメントし、パラメータ空間でそれらを統合し、強化学習を用いて統一モデルを下流ドメインへ継続的に訓練する
具体的に見ると、このアーキテクチャの大規模モデルは、混合エキスパートモデルのようなものと見なすことができます。各エキスパートは訓練データを受け取った後、まずそれぞれの能力を向上させます。演繹的推論の「エキスパート」は、訓練後に仮説生成、論理推論伝播、経験的一貫性検出、エラー修正を行います。
帰納のエキスパートは、モデルの抽象化と汎化における基本的な能力を強化します。一方、アブダクションのエキスパートは、目標から開始し、最小限の仮説的支持を前提として、既知の事実と照らし合わせながら、目標指向の仮説形成、検証、修正の反復サイクルを効率的に実行します。これは因果グラフの枝刈りに相当します。
これらの能力は、ドメイン横断的に堅牢な推論を行うために不可欠な構成要素です。
その後、研究者たちはパラメータ空間融合を通じてこれらのエキスパートを統合し、数学、プログラミング、ソーシャルインタラクションの3つのシナリオでそれぞれ強化学習を用いてエキスパートモデル(Domain-RL-Meta特定ドメインメタ強化学習と呼ぶ)を訓練し、その後訓練済みのモデルをさらに統合します。
この訓練方法は、メタ能力アライメントと呼ばれます。
実験結果
効率的かつスケーラブルな訓練方法
上記3種類のタスクに対し、この研究では問題の難易度を段階分けし、簡単なものから難しいものへと段階的にモデルを訓練する学習戦略を採用しました。
この計画によると、7Bモデルはレベル2の問題で性能が収束し、より高度な訓練データセットを使用しても性能は向上しませんでした。32Bモデルはレベル3の難易度訓練データから時折恩恵を受けましたが、報酬カーブが不安定だったため、本研究では採用されませんでした。
研究者たちは訓練過程で、7Bモデルについては各タスク、各レベルで200インスタンスを実験し、32Bモデルについては各タスク、各レベルで2000インスタンスを適応させました。
結果は、命令チューニングベースライン(Qwen-2.5)と比較して、メタ能力アライメントに基づく訓練方法により、数学、プログラミング、科学問題の7つの未見のベンチマークテストにおいて、モデルの精度が10%以上向上し、特定ドメイン強化学習によってさらなるゲインが得られたことを示しています。
7Bおよび32B規模において、メタ能力アライメントと統合されたモデルは常に命令チューニングベースラインモデルを上回り、統合されたモデルが最高のゲインを達成しました。
7B規模のモデルでは、数学問題の平均スコアはベースラインの38.8%からDomain-RL-Metaで43.0%に向上しました。メタ能力アライメントを経ずに特定ドメイン強化学習のみを行った場合の訓練後のパフォーマンスは41.2%でした。
パラメータ数が32Bに拡張された場合、数学問題のパフォーマンスは46.9%から50.3%(特定ドメイン強化学習)に、さらに52.3%(メタ能力アライメント+特定ドメイン強化学習)に向上し、全体の平均スコアは44.6%から47.4%に、さらに48.8%に向上しました。
7Bと32Bのパラメータ量における向上を比較すると、メタ能力アライメントによる恩恵はモデル規模の増加とともに拡大し、特に数学タスクにおいて、3種類の推論モードを統合した後の訓練済みモデルの性能は11.1%向上しました。
表1:異なるパラメータ規模における、メタ能力アライメント訓練を適用した大規模モデルの数学およびプログラミング問題における性能
これは、このフレームワークが数学、プログラミング、科学分野における推論能力向上に、スケーラブルで汎用性があり、制御可能な方法を提供し、説明可能で堅牢な推論モデルの構築に貢献することを示しています。
これはまるで、学生が様々な技を操れる「小無相功」を習得したかのように、あらゆる問題に容易に対処できるようになるのと似ています。
参考資料:
https://www.alphaxiv.org/abs/2505.10554
https://www.alphaxiv.org/overview/2505.10554