現在の言語モデル(LM)は、強化学習(RL)を通じて思考の連鎖(Chain-of-Thought)を生成することで、複雑な質問応答タスクにおいてブレークスルーを達成しています。しかし、主流の方法は二値報酬関数(正解なら1点、不正解なら0点)に依存しており、これによりモデルは高得点を追求するために盲目的に推測し、たとえ答えに確信がなくても高い自信度を示すことがあります。この現象は「キャリブレーション劣化」と呼ばれ、モデルの自信度が真の正答率と大きく乖離し、医療や法律などの高リスク分野で深刻な結果を引き起こす可能性があります。
論文:Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
リンク:https://www.arxiv.org/pdf/2507.16806
本稿で提案するRLCR手法(Reinforcement Learning with Calibration Rewards)は、確率キャリブレーションをRL訓練目標に直接統合した初の試みです。モデルに解答と数値化された自信度を同時に出力させ、新しい報酬関数(正確性スコア + ブライアキャリブレーションスコア)を設計することで、以下を達成しました:
- 理論的保証:モデルが正確性とキャリブレーションを同時に最適化するようインセンティブ付けされることを証明
- 性能向上:数学的推論(GSM8K)と事実質問応答(HotPotQA)タスクで、キャリブレーション誤差(ECE)が85%以上削減
- 汎化優位性:異分野タスクでもキャリブレーション能力を維持し、従来のRLや後処理分類器を上回る
方法論詳解:RLCRの設計と理論
報酬関数の再構築
従来のRLVR(Reinforcement Learning with Verifiable Rewards)は二値報酬のみを使用し、その報酬関数(R(y, y*))は、モデル出力yが正解y*と一致する場合に1、そうでない場合に0と定義されます。
RLCRの革新的な報酬関数は、ブライアスコア(確率予測のキャリブレーション尺度)を導入しています。この報酬関数(R(y, c, y*))は、正確性スコアとブライアキャリブレーションスコアを組み合わせたものです。
- c:モデルが出力する自信度(0-1の数値)
- 第2項の役割:自信度cと真の正確性I(y=y*)との偏差にペナルティを与えます。例:
- 解答が正しくてもc(低自信度)の場合、ペナルティが発生
- 解答が間違っていてc(高自信度)の場合、より大きなペナルティが発生
二値報酬は推測を促す vs. RLCR報酬は正確性とキャリブレーションを両立
理論的保証:定理1の核心思想
定理1:モデルの解答に対する真の正解確率がp*であるとき:
- キャリブレーションインセンティブ:p*が固定されている場合、期待報酬はc=p*のときに最大化される
- 正確性インセンティブ:全てのキャリブレーションされた予測において、報酬は正確性が最大のときに最適
証明の鍵:
- サベージ-ダーヴィッド表現を通じてブライアスコアを分解し、報酬関数の導関数を導出
- c ≤ p*(またはc ≥ p*)の場合、報酬が単調増加(または減少)し、高い正答率が高い報酬を得ることを保証
なぜ対数損失を使用しないのか?対数損失は厳密に適切なスコアリングルールですが、無界です。自信度cが0に近づくと、損失は無限大に発散し、定理条件を満たす有限のcを見つけることができず、モデルが自信度0の不正解を出力するインセンティブとなる可能性があります。
実験設計と結果分析
データセットの革新:不確実性推論の強制
- HotPotQA-Modified:
- 元の多段階質問応答データセットは10段落(関連2+妨害8)を含む
- 修正版では、0/1/2個の重要な段落をランダムに削除し、情報不足を生成(サンプルの1/3は重要な情報なし)
- 目的:モデルに知識の欠落を認識させ、自信度を低下させるよう強制する
- Big-Math:
- LLaMA-8Bの正答率0-70%の数学問題(合計15,000問)をフィルタリング
- 数値解答のみを保持し、math-verifyツールで正確に検証
ベースライン手法の比較
RLVR: 従来の二値報酬 + CoT - キャリブレーション劣化が深刻
RLVR+BCE分類器: 自信度予測のために追加で分類器を訓練 - 2つのモデルが必要となり、推論コストが2倍
RLVR+Brier分類器: BCEの代わりにブライア損失を用いて分類器を訓練 - キャリブレーションの改善が限定的
解答確率(AnswerProb): <answer>タグ内のトークン平均確率を直接使用 - 推論プロセスを無視し、自信度を過大評価
核心的な結果:キャリブレーションと正確性の両立
主要データ:HotPotQAにおけるRLCRとベースラインのキャリブレーション誤差比較
ドメイン内性能(HotPotQA):
- 正確性:RLCR(62.1%)≈ RLVR(63.0%)
- キャリブレーションの向上:
- ECE:0.37→0.03(92%削減)
- ブライアスコア:0.37→0.21(43%削減)
- 原因分析:モデルは<analysis>タグで不確実性を明示的に分析(例:「段落3の結論はデータ競合により無効となる可能性あり」)
クロスドメイン汎化(6つの異分野データセット):
- 正確性:RLCR(56.2%)> RLVR(53.9%)
- キャリブレーションの優位性がより顕著:
- ECE:0.21 vs. RLVRの0.46(ベースラインより54%改善)
- AUROC:0.68(自信度による正例・負例の区別能力が36%向上)
- 重要な結論:RLCRの汎化能力は不確実性推論の転移性から来る
数学的推論(GSM8K+Math500):
- SFTウォームアップの役割:
- DeepSeek-R1で生成された500件の不確実性分析を用いて基盤モデルを微調整
- 結果:SFT+RLCRのECEは0.058に低下(純粋なRLCRは0.119)
- 典型的な誤り:
元のRLCR出力:「71本の映画」(自信度0.6)SFT+RLCR出力:「76本の映画」(自信度0.3 → 実際の正解は63)<分析>タグは「グループ内映画を追加する際に、全体集合との重複が考慮されていない」と指摘
革新的な発見と技術的拡張
自信度の自己整合性検証
同じ解答に対する自信度の安定性:
- 解答を固定し、5つの分析チェーンをサンプリングして自信度を取得
- 結果:標準偏差が0.1未満のサンプルが82%を占める
相互排他的な解答の自信度保存:
- 理想的な要求:解答集合が相互排他的であれば、合計自信度は1に近づく
- 実測結果:
- ドメイン内(HotPotQA):RLCRの合計自信度は約0.98
- ドメイン外:依然として過信が見られる(合計約1.2)が、RLVR(合計約1.8)よりはるかに優れている
テスト時における自信度加重スケーリング
核心思想:自信度cを、訓練不要の信頼度代理として使用
- 最大自信度選択(Max-Confidence):N個のサンプルから自信度が最も高いものを選ぶ
- 自信度加重投票(Weighted Majority):cで加重して投票する
グラフ:自信度加重投票の正答率とサンプル数増加曲線の関係
主な利点:
- N=5の場合、自信度加重投票の正答率は通常の投票を3.2%上回る
- 分析チェーン統合(K個の<analysis>をサンプリング)により、ブライアスコアをさらに低減できる
モデル規模とキャリブレーション能力の関連性
小規模モデルは、キャリブレーションを向上させるために、明示的な不確実性推論チェーンにより依存する。
- 実験設計:0.5B/1.5B/7Bモデルで2種類の分類器を比較:
- ベースライン分類器:質問と解答のみを入力
- 分析分類器:RLCRの<analysis>内容を追加で入力
- 結果:
- 0.5Bモデル:分析分類器のブライアスコアが37%低減
- 7Bモデル:両者の差が消失
- 結論:小規模モデルは表現能力の不足を補うために、明示的な推論チェーンを必要とする
結論
RLCRは、報酬関数の再構築という簡潔かつ深遠な革新を通じて、強化学習フレームワーク内で言語モデルの正確性とキャリブレーションの最適化を初めて統一しました。その主要な貢献は次のように要約できます:
- 理論的厳密性:ブライアスコアと正確性報酬の組み合わせが、最適な解答選択と真の自信度表現を同時に促進することを証明
- 実証的優位性:12のデータセットにおいてキャリブレーション誤差を大幅に削減(最大92%削減)し、正確性を損なわないことを示す
- システム拡張性:自信度出力が、テスト時における加重投票などの軽量な改善手法をサポート
この研究は、言語モデルが「正しい答えを求めるだけ」から「自身の認識の限界を理解する」という重要な一歩を踏み出したことを示し、医療診断や法律相談などの高リスクシナリオにおける信頼性の高いAI展開の基盤を築きます。将来の研究では、異分野間のキャリブレーションの汎化や、複雑な推論における不確実性の伝播問題のさらなる解決が必要です。
注:タイトルは格魯AI@xhsを参照