高いレベルの数学コンテストに出場する準備をしているところを想像してください。過去問の解答を繰り返し暗記するだけで、自分で問題を解く練習を一切しないとしたら、新しいタイプの問題に直面したときに手も足も出ない可能性があります。逆に、独学でひたすら試行錯誤を繰り返し、教師やエキスパートの問題解決経験を全く参考にしないとしたら、進歩は非常に遅くなるでしょう。これは、AIモデルの学習において長年存在する二つの極端な状態によく似ています。「模倣学習」は手本を真似るだけで自己実践が不足し、「強化学習」はひたすら自己探索するだけで既存の経験から学びません。
これら二つの戦略、「学ぶだけで実践しない」と「実践だけで学ばない」は、それぞれに欠点があります。前者は習得が速いものの汎化能力が低く、後者は熱心に探索するものの効率が低い可能性があります。では、両方の良い点を兼ね備え、モデルがエキスパートの経験を参考にしつつ、自律的な探索も維持できる方法は存在するのでしょうか?最近、上海AI Laboratoryの研究チームは、西湖大学、南京大学、香港中文大学と共同で、全く新しい強化学習パラダイムであるLUFFY(Learning to reason Under oFF-policY guidance)を提案しました。
論文リンク:https://arxiv.org/abs/2504.14945
コードリポジトリ:https://github.com/ElliottYan/LUFFY
LUFFYの核心的な理念は、学習プロセス中にモデルがエキスパートの推論軌跡を参考に学習し(オフポリシーガイダンス)、同時に独立して試行錯誤探索を続けること(オンポリシー推論)を可能にすることです。これにより、「学びながら実践し、学んだことを応用する」という目標を達成します。実験により、LUFFYは複数の数学推論チャレンジタスクにおいて平均+7.0ポイントという性能向上を達成し、分布外タスクでも顕著な汎化能力を示しました。
図表1. 6つの競技レベル数学推論ベンチマークにおける全体的なパフォーマンス。AIME 2024, AIME 2025, AMC, MATH-500, Minerva Math, OlympiadBenchという6つの高難易度ベンチマークテストにおいて、LUFFYは平均49.6%の正答率を達成し、既存のZero-RL手法と比較して+7.0ポイントを超える顕著な性能向上を実現しました。
この研究は公開されるやいなや、Hugging FaceコミュニティのDaily Papersホットリストで第1位を獲得し、権威ある学術フォーラムarXivでも熱烈な議論を巻き起こしました。
模倣学習と強化学習のジレンマ
現在の主流である大規模モデルの推論学習方法は二つのカテゴリーに分けられます:
模倣学習(SFT):モデルがエキスパートの解答軌跡を参考にして学習するもので、「解答を見て問題を写す」ことに相当します。既知の方法は素早く学習できますが、新しい問題に対応するのが難しく、自律性に欠けます。
図表2. 模倣学習(SFT):エキスパートモデルが生成した高品質な推論軌跡を模倣する。
強化学習(Zero-RL):モデルが繰り返し試行錯誤することで報酬フィードバックを得て自身の戦略を最適化するもので、一定の汎化能力はありますが、開始戦略が弱いと局所最適に陥りやすく、上限突破が困難です。
図表3. 強化学習:環境(例えば検証器)とのインタラクションからフィードバックを得て、自身の戦略を継続的に最適化する。
これら二つの方法にはそれぞれ長所がありますが、短所もあります。LUFFYの提案は、まさにこの二元対立を打破し、両方の長所を融合させ、モデルが「深く学び、かつ広く実践する」という核心的な問題を解決するためです。
LUFFYの直感とメカニズム:エキスパートの手本、モデルの探索
LUFFYの鍵となる思想は、強化学習プロセス中に「オフポリシーガイダンス」を導入することです。これは、より強力なモデルやエキスパートからの推論軌跡を誘導として使用することを意味し、モデル自身のポリシーのみを使用して自己最適化を行う現在の主流の強化学習パラダイムとは異なります。
これは、学生が教師から提供された古典的な例題を参考にしつつ、独立して練習問題を解き続けるようなものです。LUFFYでは、モデルは二種類の軌跡を組み合わせて学習します。一つは自身の現在のポリシーで生成されたオンライン推論プロセス(オンポリシー)、もう一つはより強力なエージェントから借りたオフラインの手本(オフポリシー)です。これら二種類の軌跡が一緒に戦略最適化に使用され、モデルは「学びながら実践する」ことを実現します。
図表4. LUFFY:学びながら実践する推論学習フレームワーク。LUFFYは強化学習フレームワークに外部の高品質な推論軌跡を導入し、「ポリシーシェーピング」メカニズムを通じて、自身の試み(オンポリシー)とエキスパートの手本(オフポリシー)の利点を融合させます。モデル自身の推論が失敗した場合、エキスパートの手本から重要なステップを学習します。一方で、自身が優れたパフォーマンスを示した場合、独立した探索を維持します。このメカニズムは探索能力を維持しつつ、モデルが低確率だが重要な行動に焦点を当てるよう導き、推論能力の継続的な進化と汎化を実現します。
技術的なハイライト:混合戦略とポリシーシェーピング
LUFFYの実装はGRPOアルゴリズムフレームワークに依拠しており、二つの核となるメカニズムを中心に展開します:
1. 混合戦略学習:オンライン軌跡とオフラインの手本を同時に活用し、モデルを高報酬行動に近づけるよう誘導しつつ、自身の有効な試みを維持します。
2. ポリシーシェーピング関数(図6):非線形重み付けメカニズムを通じて重要なステップの学習を強化し、モデルの早期収束やポリシーエントロピーの低下を防ぎ、継続的な探索を維持します。図5は、勾配更新に対するポリシーシェーピングの非線形な重みと、モデルの探索への影響を示しています。
図表5. LUFFYにおけるポリシーシェーピングの効果。左図:学習過程におけるポリシーエントロピーの比較。中図:異なる手法における損失関数の決定確率に基づく重み分配。右図:決定確率に基づく勾配重み付け状況の比較。LUFFYは非線形な重み付けにより、まれな(低確率な)しかし重要な行動に対する勾配応答を高め、それによってモデルがオフポリシーの手本からより効果的に深い推論パターンを学習するよう導きます。
図表6. ポリシーシェーピング関数f()は、正則化制約下における重要度サンプリングと見なすことができ、モデルが低確率だが潜在的に重要な行動決定に焦点を当てることを奨励します。
実験結果:即座に学び即座に実践し、応用力を発揮
図表7. 学習ダイナミクス分析:学習初期段階で、LUFFYモデルは外部ガイダンスに徐々に適応し、推論経路長はオフポリシー軌跡に近づき、効果的な模倣と調整を示します。同時に、学習プロセス全体を通じて、LUFFYは常に高いポリシーエントロピーを維持し、継続的な探索能力を示しています。一方、従来のオンポリシーRLのエントロピーは早期に急速に収束し、探索能力が低下します。
6つの公開数学推論ベンチマークにおいて、LUFFYは既存のZero-RL手法と比較して平均+7.0ポイントの向上を達成し、複数の分布外テストセットでも優れたパフォーマンスを示しました。
図表8. 6つの高難易度数学推論ベンチマークにおけるLUFFYの性能。
図表9. 分布外テストセット(ARC-c, GPQA-diamond, MMLU-Pro)における性能。
より小型の1.5Bモデルや、指示にアラインされたInstructモデルなど、他のモデルにおいてもLUFFYは顕著な優位性を示しています:
図表10. Qwen2.5-Math-1.5BにおけるLUFFYの性能。
図表11. Qwen2.5-Instruct-7BにおけるLUFFYの性能。
さらに、LUFFYは「推論経路長」においてもSFTより明らかに優れています。同じ精度レベルで、LUFFYはより短い推論プロセスで正解に到達でき、無効な展開を減らします。また、テスト時に温度を上げて探索強度を増しても、LUFFYの性能は安定しているのに対し、SFTは顕著な低下が見られました。
図表12. 推論長の比較。
図表13. テスト時の探索能力の比較。
展望:汎用推論の新たな出発点
LUFFYは効率的で安定しており、汎化能力を備えた推論学習方法を提案しました。これは学習と実践の両立を図り、モデルが推論戦略の内在的な論理を真に把握できるようにします。将来的には、このフレームワークをコード生成、科学的質疑応答、自動計画など、複雑な推論が必要なAIタスクに拡張し、より汎用的で自律的なエージェントを構築することが可能です。
プロジェクトは現在GitHubでオープンソース化されています。興味のある方はぜひ、内容を理解し、再現し、あるいは拡張してみてください。
著者紹介:
Yan Jianhao氏は、西湖大学のZhang Yue先生のもとで博士課程3年次。主な研究分野は、強化学習、オンライン学習、モデル編集など、大規模モデルに基づく後処理技術です。博士課程以前は、WeChat AIで研究員を務め、WMT機械翻訳コンテストで優勝経験があります。
李雅夫博士は、現在上海AI Laboratoryの研究員で、大規模言語モデル推論、信頼できるAI、機械翻訳などを研究しています。浙江大学と西湖大学の共同プログラムで博士号を取得し、エディンバラ大学でAI修士号、武漢大学で電子情報工学士号を取得しています。李雅夫博士は、ACL, EMNLP, ICLRなどのトップ会議で多数の研究成果を発表しており、引用数は1800回を超え、ACL 2023ベストペーパー候補に選ばれ、ACLエリアチェアおよび複数の国際トップ会議やジャーナルの査読委員を務めています。博士課程期間中、国家奨学金を受賞し、Tencent Rhino Bird Elite Programに選出され、優秀奨学金を受賞しました。
© THE END
転載をご希望の方は、本公式アカウントにご連絡ください。
投稿または取材のご依頼:liyazhou@jiqizhixin.com