プロセス監視＞結果監視！華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕

MLNLPコミュニティは、国内外で知られる機械学習と自然言語処理のコミュニティであり、国内外のNLP修士・博士課程の学生、大学教員、企業研究者を対象としています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして幅広い愛好家の間の交流と進歩を促進すること、特に初心者の学生たちの進歩を支援することです。

出典 |PaperWeekly

大規模言語モデル（LLMs）の急速な発展に伴い、検索拡張生成（RAG）はAIが知識を獲得するための必須の道となっています。しかし、従来のRAGには致命的な欠陥があります。それは機械的に「一度資料を検索し、一度回答する」だけであり、多層的で段階的な推論が必要な複雑な問題に対しては無力です。これは、辞書しか引けない学生に数学の証明問題を解かせようとするようなもので、失敗は避けられません。

「Agentic RAG」はこれを受けて誕生しました。これはAIが人間のような専門家のように、いつ資料を参照すべきか、どのように重要な問題を抽出するか、複数の情報をどのように統合するかを自律的に決定できるようにします。Deep-researchなどの著名なプロジェクトは、この革命の先駆者です。

Search-R1などの学術界の最新の進展は、結果監視型の強化学習をAgentic RAGの訓練プロセスに導入し、最終的な回答の正誤を唯一の報酬信号として用いることで、目覚ましい成果を上げています。しかし、結果監視戦略は、最終的な回答の正誤のみを重視し、単一の報酬信号で訓練プロセス全体を指導します。これは、子供に問題の解き方を教える際に「答えが間違っている」とだけ伝え、どこが間違っているのかを指摘しないようなものです。

香港城市大学とファーウェイ・ノアの方舟研究所の研究チームは、Agentic RAGにおける結果監視型の強化学習には3つの主要な問題があることを発見しました。

• 探索の盲目性と非効率性：モデルは暗闇の中で手探りするようで、すべてのステップを完了して初めて正誤が分かります。

• 功績と過失の曖昧さ：正しい初期推論が、その後の誤りによって誤って「罰せられる」ことがよくあります。

• フィードバックの粗さ：詳細な指導が不足しているため、モデルは複雑な意思決定スキルを習得するのが困難です。

研究チームは重要な洞察を提案しました。真に「思考能力」を備えたAgentic RAGシステムを訓練するには、最終的な回答を報酬とするだけでは不十分であり、推論プロセスにおけるすべての重要な決定が正確に監視され、最適化されるべきです。

この理念に基づき、チームは初めてプロセス監視型の強化学習手法をAgentic RAGの訓練プロセスに体系的に導入し、新しいフレームワークであるReasonRAGを構築しました。この手法は3つの革新的なメカニズムを通じてモデル性能を大幅に向上させました。

• きめ細やかな報酬メカニズム

• 検索に基づく最適パス構築

• プリファレンス最適化訓練戦略

実験結果は注目に値します。複数の権威ある評価セットにおいて、ReasonRAGはわずか5kの訓練データで、90kのデータを必要とするSearch-R1モデルを上回り、優れたデータ効率と推論能力を示しました。

論文タイトル：

Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning

論文URL：

https://arxiv.org/abs/2505.14069

コードURL：

https://github.com/wlzhang2020/ReasonRAG

技術的な課題

Agentic RAGのプロセス監視最適化を実現するには、2つの主要な課題に直面します。

• 高品質なプロセス報酬をどのように定義するか？報酬はモデルの推論が正しいかどうかを判断するだけでなく、最短で最も効果的な経路を導くものでなければなりません。同じく正しい回答でも、経路が短い方がより推奨されるべきです。

• プロセス監視データをどのように自動でアノテーションするか？高品質な中間ステップは通常、手動でのアノテーションが必要ですが、この方法は時間と労力がかかり、拡張が困難です。モデルが監視された中間推論ステップを自動で生成する方法が鍵となります。

コア技術解析

ReasonRAGは、報酬設計からモデルの意思決定まで、5つの主要なステップを中心に展開する、緊密に連携した推論閉ループシステムを構築しています。プロセス報酬の設定 → 推論パスの検索 → プリファレンスデータの構築 → 意思決定戦略の最適化 → リアルタイム動的推論。これら5つのステップにより、モデルは検索と組み合わせて「正確に答え、迅速に進む」推論パスを完了する方法を学習します。

ステップ1：報酬メカニズムは結果だけでなく、プロセスも重視します。従来の方法では、モデルは正解して初めて得点を得ます。しかし、ReasonRAGは各推論ステップに「点数」をつけ、最短経路報酬推定（SPRE）を導入します。複数の経路をシミュレートすることで、迅速かつ正確な決定を報酬し、冗長で非効率な思考を罰し、モデルが「遠回りを減らし、的を射る」ことを学習させます。

ステップ2：推論経路は直感に頼らず、ツリーで探します。膨大な数の思考経路に直面しても、ReasonRAGは直感的な決定に頼らず、モンテカルロ木探索（MCTS）を活用して、「検索するかどうか、回答するかどうか」の多段の組み合わせを体系的に検索します。各推論は迷路を探索するようなもので、状態-行動ツリーを通じて最適な経路に段階的に近づきます。

ステップ3：プリファレンスサンプルは自ら生成します。プロセス監視データが不足しているのは問題ではありません。ReasonRAGは、RAG-ProGuideを自ら生成します。このデータセットでは、モデルが前の2つのステップで構築した推論パスが自動的に採点・順序付けされ、最終的に優劣比較の例が形成され、モデルが強化学習を通じて意思決定のプリファレンスを最適化できるようにします。

ステップ4：プリファレンス学習により、選択に規則性を持たせます。明確なプリファレンス比較を持つことで、ReasonRAGはDPO最適化戦略を使用し、モデルがより良い決定を下せるように段階的に学習するのを助けます。

ステップ5：推論フローを柔軟にスケジューリングします。ReasonRAGは明確な推論制御フローを設計しました。モデルは現在のタスクの状態に基づいて、検索するか、回答を生成するかを動的に決定でき、各能力モジュールを柔軟に呼び出して、スマートで秩序ある思考の進行を実現します。

実験結果

性能比較

論文は、5つの権威ある質問応答データセットにおいて、12のSOTA手法とReasonRAGを系統的に比較しました。その結果、ReasonRAGのデータ効率、多段推論、汎化能力における顕著な優位性が示されました。

高いデータ効率：わずか5kの訓練サンプルで、ReasonRAGは平均EM（34.4%）とF1（42.3%）においてSearch-R1（90kのデータで訓練、EM 32.8%、F1 40.7%）を上回りました。プロセス報酬は従来の「結果報酬」よりも著しく優れていました。

より強力な多段推論：HotpotQAでは、ReasonRAGはF1スコア48.9%でAutoRAG（43.7%）とSearch-R1（47.0%）を上回り、強力な複雑推論統合能力を示しました。

優れたクロスドメイン汎化能力：BamboogleやMuSiQueなどの挑戦的なテストセットでも、ReasonRAGは安定して先行する性能を示し、その推論戦略が良好な転移性と堅牢性を備えていることを示しています。

訓練効率

ReasonRAGのPopQA、HotpotQA、2WikiMultiHopQAにおけるEM性能はGPU時間が増加するにつれてSearch-R1よりも常に速く、その高い訓練効率を示しています。

最適化戦略

実験ではさらに異なる最適化戦略の効果を比較しました。これには、ベースモデル（Base）、教師ありファインチューニング（SFT）、結果監視（ORL）、プロセス監視（PRL）が含まれます。

結果は、ReasonRAGがすべてのデータセットで最高の性能を達成したことを示しており、プロセス報酬がもたらすきめ細やかなフィードバックメカニズムが、複雑な推論戦略の学習に一層貢献することを示しています。

まとめと今後の方向性

ReasonRAGは、プロセス報酬に基づくAgentic RAG強化学習訓練パラダイムを提案し、訓練効率、複雑な推論能力、および汎化性能における可能性を示しました。従来の「結果監視」手法と比較して、プロセスレベルの監視はよりきめ細やかで安定した最適化信号を提供し、特に多段で複雑なタスクの学習に適しています。

今後の展望として、さらなる探求が可能です。

• より豊かなプロセス報酬体系を構築し、情報冗長ペナルティなどの多次元フィードバック信号を導入する。

• マルチモーダル質問応答、コード推論、複雑なツール呼び出しなど、より多くのタスクシナリオ、Agenticアプリケーションに拡張する。

技術交流グループへの招待状

△アシスタントを追加するには長押ししてください

QRコードをスキャンしてアシスタントのWeChatを追加

備考：氏名-学校/会社-研究方向

（例：小張-ハルビン工業大学-対話システム）

を添えて、自然言語処理/Pytorchなどの技術交流グループに参加申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の研究者によって共同で設立された民間の学術コミュニティです。現在では国内外で知られる機械学習と自然言語処理のコミュニティに発展しており、機械学習、自然言語処理の学術界、産業界、そして幅広い愛好家の間の進歩を促進することを目指しています。

当コミュニティは、関連する実務家がさらなる学習、就職、研究などに関してオープンな交流プラットフォームを提供しています。ぜひ私たちをフォローし、ご参加ください。

プロセス監視＞結果監視！華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕

短いURLをシェア