推論モデルはしばしば自己反省に似た行動を示しますが、問題は——
これらの行動は本当に新しい戦略を効果的に探索できるのでしょうか?
これに対し、ノースウェスタン大学、Google、Google DeepMindのチームは、従来の強化学習と反省の関係に疑問を呈し、ベイズ適応型強化学習手法を提案しました。これにより、モデルがいつ、どのように、そしてなぜ自己反省し、新しい戦略を探索すべきかを初めて説明しています。
従来の強化学習と新しい手法で訓練されたモデルを比較することで、研究者たちは次のような発見をしました。
「モデルが3ステップ以内に3つの連続した同じ文字を出力する必要がある」という合成タスクにおいて、従来の強化学習はしばしば一直線に進む傾向があるのに対し、新しい手法は無効な仮説を除外し、適切な時に新しい戦略に切り替えることを理解しています。
さらに、数学的推論タスクでは、新しい手法はほとんどのベンチマークとモデルでより高い精度を達成し、問題を解くために消費するトークン数も少なくなりました。
より興味深いことに、チームは反省の回数が性能を決定する唯一の要因ではないことを発見しました。一部の基礎モデルはしばしば多くの無駄な反省を示し、実質的な情報利得をもたらしていませんでした。
詳細は以下に展開します。
ベイズ適応型強化学習が反省的探索を促進
直感的に言えば、テスト時の試行錯誤のステップは、情報利得をもたらす場合にのみ有益です。しかし、人々は強化学習の訓練において、モデルに試行錯誤や反省がもたらす情報利得について教えていませんでした。
実際、マルコフ仮説に基づく既存の強化学習パラダイムには、固有の限界があります。探索(exploration)は訓練段階でのみ発生し、エージェントは展開(テスト)時に通常、訓練で学んだ決定論的戦略を利用(exploit)するだけです。
さらに、マルコフ仮説は強化学習エージェントが現在の状態のみに基づいて決定を下すことを意味し、履歴情報(試行錯誤や遡及的な思考プロセスなど)が戦略に与える影響は、現在の状態表現に圧縮されるだけです。
研究者たちは、このような従来のパラダイムは、モデルが訓練解答を記憶することで高得点を得ることができ、真に反省することを学ぶ必要がないという結果につながる可能性があると指摘しています。モデル内部での試行錯誤も情報利得をもたらしません。
では、テスト時における反省的探索は本当に役立つのでしょうか?効果的な反省的探索戦略はどのように学習できるのでしょうか?
これらの質問に答えるため、研究者たちは従来の強化学習とは異なるベイズ適応型強化学習フレームワーク、略してBARLを研究しました。
その核心的な考えは、LLMの反省的探索をベイズ適応型強化学習問題として扱うことで、環境の不確実性のモデリングを導入し、推論プロセス中にモデルが適応的に探索できるようにすることです。
簡単に言えば、BARLは従来の強化学習のマルコフ仮説に限定されず、MDP(例えば、ある問題に対する異なる戦略の有効性)の不確実性を考慮します。したがって、すべての履歴観測(報酬フィードバックを含む)を意思決定に含める必要があります。
このフレームワークは、報酬最大化の利用と情報獲得の探索を自然にバランスさせます。
具体的には、BARLにおいて、チームはモデルが未知の要素を持つタスクに直面していると仮定し、これらの不確実性を記述するために一連の仮説的なMDP(マルコフ決定プロセス)を使用できます。
モデルは各仮説MDPに対して事後確率(信念)を保持し、推論プロセスとともに継続的に更新します。
モデルがアクション(例えば、次の思考ステップの生成)を選択するたびに、観測された結果に基づいて、様々な仮説に対する信念を更新します。
BARLの目標戦略は、単一の決定論的環境に対して最適化されるのではなく、事後分布の下での期待累積報酬を直接最適化します。これは、モデルが意思決定を行う際に「これを行うことの利益はどれくらいか、同時にこの行動が不確実性をどれだけ減らせるか?」を考慮することを意味します。
BARLはテスト時のパフォーマンスを最適化目標に明確に含め、事後期待報酬を最大化することで、モデルが未知の状況を考慮するように促します。
モデルは、積極的な探索のみが未知の状況で高い収益を維持できることを理解しているため、反省は重要な情報を取得し、間違った道を最後まで進むことを避けるためのものです。
要するに、BARLはモデルに次のことを認識させます——
適切なタイミングでの反省と、もう一つの試みがより高い報酬をもたらす可能性があり、これこそが反省行動が出現する動機です。
新しい推論モデルの強化学習アルゴリズム
研究者たちは推論モデル向けにBARLの意思決定の数学的定式化を示しており、その核心は事後期待値をどのように計算するかです。
この式は、複数の候補解答(例えば、best-of-NのN個の解答)に対して期待報酬の加重和を計算します。重みは、一方ではモデルがその候補解答の良し悪しを判断するものであり、他方では、実際の観測結果とモデルの期待との間の偏差を測定するための「補正項」を含んでいます。
この補正項こそが反省信号として機能します。もしある戦略がモデルによって高く評価されていたにもかかわらず、報酬のフィードバック結果が期待通りでなかった場合、この差異はすぐにその仮説の重みを低下させ、「もしかしたら新しい考え方に切り替えるべきかもしれない」とモデルに警告します。これは、モデルがいつ反省し探索すべきかという問いに答えるものです。
このメカニズムを通じて、BARLの意思決定式は、モデルが各ステップで反省が必要かどうか、いつ戦略を切り替えるべきかを判断するように導きます。
これこそがBARLの反省的決定の真髄です。モデルがベイズ事後確率に基づいて、「現在の考え方を続けるか」それとも「新しい考え方を試すか」を比較検討することを可能にします。
この更新プロセスは、モデルが異なる推論戦略を結合し切り替えることを奨励します。それは、複数の可能な問題解決のアイデアを連結し、途中でいずれかのアイデアがうまくいかないと判明した場合に、すぐに別のアイデアに切り替えるようなものです。
BARLはエンドツーエンドの強化学習最適化を通じてこれを自動的に実現しており、原理的な方法でLLMに推論プロセスにおける「いつ反省するか、どのように反省するか」の指針を与え、長いCoT(思考連鎖)によってbest-of-Nを線形化する効果を達成していると言えます。
合成タスクの事例:強化学習とBARLのより明確な比較
BARLがテスト時にどのように反省的探索能力を発揮するかを直感的に示すため、著者らは合成タスクを設計しました。モデルは3ステップ以内に3つの連続した同じ文字(0/1/2)を出力することで報酬を得られます。
訓練段階では、プロンプト文字は0または1のみであり、モデルは対応する000または111を出力して報酬を得ることを学習しました。しかし、テスト時には、プロンプト文字が2に変わりました。
直感的には、訓練時に学習した決定論的戦略は、新しい文字に遭遇した際にはもはや有効ではなく、モデルは正しい出力パターンを即座に探索する必要があります。
このタスクに2つのモデルで挑戦させました。1つは従来のマルコフ型強化学習で訓練されたもの、もう1つはBARL手法で訓練されたものです。
マルコフ型強化学習はすぐに訓練精度を最大化し、ほとんどこれらの解答を記憶しました。
BARLも訓練中に正しい出力パターンを学習しましたが、より興味深いことに、不確実性に基づいて戦略を調整することも同時に学習しました。この違いはテスト時になって初めて明らかになります。
テスト段階では、全く異なる行動が明らかになりました。つまり、プロンプトが新しい文字「2」に変わったとき、マルコフ型強化学習は訓練中に固定された出力(000/111)しか記憶していなかったため、汎化できず、ほとんど常に間違った答えを出し、テスト精度はほぼゼロでした。
一方、BARLエージェントは「反省」能力を示しました。まずある戦略を試み、最初の試行で報酬が得られなかった場合、すぐに反省して切り替え、別の可能なシーケンスを試します。
以下の図は、この合成タスクにおけるマルコフ型強化学習とBARLの意思決定の違いを鮮明に示しています。
マルコフ型戦略は一直線に進むのに対し、BARL戦略は無効な仮説を除外し、適切な時に新しい戦略に切り替えることを理解しています。
左の図では、マルコフ型強化学習モデルは訓練時にすぐに100%に近い成績を収めましたが、テスト時にはほぼ完全に失敗したことがわかります。中央のBARLモデルは、訓練パフォーマンスが向上しただけでなく、テスト時にも著しく高い精度を達成しました。
注目すべきは、右の図が示すように、BARLにタスク構造に関する事前知識(例えば、「報酬パターンは特定の文字が3回繰り返されるものである」)を事前に与えた場合、その収束速度と最終成績がさらに向上することです。
これは、候補戦略が未知の状況をカバーするために多様性を持つ必要がある一方で、無駄な労力を費やさないように合理的な信頼性も持つ必要があることを示しています。
数学的推論タスク:包括的な性能向上、トークンを大幅に削減
研究者たちはBARLをLLMの数学的推論領域にも適用し、GRPOと「Progress」報酬ベースライン(正解の確率に応じた段階的な報酬)と比較しました。
BARLはほとんどのベンチマークとモデルでより高い精度を達成しました。
それだけでなく、BARLはより高い効率性も示しました。
著者らは、各手法が問題を解くために消費するトークン数を特別に測定した結果、同等またはそれ以上の精度を達成する一方で、BARLが生成するコンテンツははるかに短いことがわかりました。
これは、BARLモデルが「何回も反省する」ために冗長で回りくどいコストを払うのではなく、各反省がより的を絞り、より効果的であるためです。
著者らはまた、もう一つの興味深い現象を観察しました。反省の回数自体が性能を決定する唯一の要因ではないということです。
基礎モデルはしばしば多くの無駄な反省を示し、実質的な情報利得をもたらしていませんでした。対照的に、BARLの反省行動はより「目的志向的」です。
研究者たちは、モデルが各ステップで生成する思考連鎖のベイズ値を計算しました。簡単に言えば、「このステップが最終的な解答にどれだけ貢献するか」と「このステップがどれだけの情報利得をもたらすか」を総合的に考慮したスコアです。
結果として、BARLモデルの各アクションのベイズ値は、従来の強化学習モデルよりも常に著しく高いことがわかりました。これは、BARLが選択するステップが、問題を解くのに役立つ(高報酬)か、新しい可能性のある経路を探索する(高情報利得)かのいずれかであり、無駄なステップを盲目的に費やすことがないことを示しています。
一方、基礎モデルを見ると、時には多くの自己チェック内容を出力しているように見えますが、情報更新を効果的に利用していないため、これらの「反省」ステップの価値評価は低く、しばしば表面的な形式に留まっていました。
最後に、著者らは長さ制限付きのGRPOを特別に訓練しました。これは、最大32トークンの問題解決プロセスしか出力できないように人為的に制限し、モデルが推論を深く展開せずに直接最終解答を出す傾向を強制するものです。
モデルの訓練精度は最終的に通常のGRPOと同様に収束するものの、生成されるプロセスの長さはますます短くなり、ほとんど直接解答を暗記する状態に退化することがわかりました。
言い換えれば、マルコフ型強化学習は訓練時には思考プロセスを犠牲にして最適性を達成するかもしれませんが、そのような戦略はテストで新しい問題に遭遇すると行き詰まります。これは、従来の強化学習が反省的探索の利点を説明できず、自己反省の出現を説明できないことをさらに裏付けています。
最後に、研究者たちは訓練コードと論文を公開しています。
本論文の筆頭著者である張申傲氏は、ノースウェスタン大学の2年生博士課程学生であり、大規模言語モデルと強化学習、特にLLMのアライメント、推論、エージェントに焦点を当てた研究を行っています。彼の研究は、情報を積極的に取得し、自己改善して人間レベルを超える知能システムを構築することを目指しています。
訓練コード: https://github.com/shenao-zhang/BARL 論文: https://arxiv.org/abs/2505.20561
— 終 —