過程監督>結果監督！華為港城重構RAG推論訓練，5k樣本效能超越90k模型

MLNLP 社群是國內外知名的機器學習與自然語言處理社群，受眾涵蓋國內外 NLP 碩博士生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理、機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 |PaperWeekly

隨著大型語言模型（LLMs）迅速發展，檢索增強生成（RAG）已成為 AI 獲取知識的必經之路。但傳統 RAG 面臨一個致命缺陷：它們只會機械地"查一次資料、回一次答"，面對需要層層深入、步步推論的複雜問題時束手無策。這就像讓一個只會查字典的學生去解決數學證明題——註定失敗。

"Agentic RAG"應運而生，它讓 AI 像人類專家一樣，能夠自主決定何時需要查閱資料、如何提煉關鍵問題、怎樣整合多方資訊。Deep-research 等明星專案正是這場革命的先行者。

學術界的最新進展如 Search-R1 等方法，將結果監督的強化學習引入 Agentic RAG 訓練流程，透過最終答案的正確與否作為唯一獎勵訊號，取得了可觀成果。但是結果監督策略——只關心最終答案對錯，用單一獎勵訊號指導整個訓練過程。這就像教孩子解題只告訴"答案錯了"，卻不指出錯在哪一步。

來自香港城市大學與華為諾亞方舟實驗室的研究團隊發現，結果監督的強化學習在 Agentic RAG 中存在三大關鍵問題：

• 探索盲目低效：模型如同在黑暗中摸索，只有完成全部步驟才知道對錯

• 功過不分明：正確的前期推論常因後續錯誤而被錯誤"懲罰"

• 回饋過於粗糙：缺乏精細指導，模型難以掌握複雜決策技巧

研究團隊提出了一個關鍵洞見：訓練一個真正具備"思考能力"的 Agentic RAG 系統，僅依靠最終答案作為獎勵遠遠不夠，推論過程中的每一個關鍵決策都應當被精確監督與優化。

基於這一理念，團隊首次將過程監督強化學習方法系統性地引入 Agentic RAG 訓練流程，構建出全新框架——ReasonRAG。該方法透過三大創新機制顯著提升了模型效能：

• 細粒度獎勵機制

• 基於搜尋的最佳路徑建構

• 偏好優化訓練策略

實驗結果令人矚目：在多個權威評測集上，ReasonRAG 僅使用 5k 條訓練數據就超越了需要 90k 條數據訓練的 Search-R1 模型，展現出卓越的數據效率和推論能力。

論文標題：

Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning

論文位址：

https://arxiv.org/abs/2505.14069

程式碼位址：

https://github.com/wlzhang2020/ReasonRAG

技術難點

實現 Agentic RAG 過程監督優化面臨兩大核心挑戰：

• 如何定義高品質過程獎勵？獎勵不僅要判斷模型推論是否正確，更要引導其走出最短、最有效的路徑。同樣正確的答案，路徑短的更應該被鼓勵。

• 如何自動標註過程監督數據？高品質的中間步驟通常需要人工標註，但這種方式耗時耗力、難以擴展。如何讓模型自動生成有監督的中間推論步驟，成為關鍵。

核心技術解析

ReasonRAG 建構了一個環環相扣的推論閉環系統，整條路徑從獎勵設計到模型決策，圍繞五個關鍵步驟展開：設定過程獎勵 → 搜尋推論路徑 → 建構偏好數據 → 優化決策策略 → 即時動態推論。這五步，讓模型學會結合搜尋完成一條"既答得準，也走得快"的推論通路。

第一步：獎勵機制不只看結果，也關心過程。在傳統方法中，模型只有答對才拿分。ReasonRAG 卻給每一步推論"打分"，引入最短路徑獎勵估計（SPRE），透過模擬多種路徑，獎勵快速準確的決策，懲罰冗餘無效的思考，讓模型學會"少繞彎、多命中"。

第二步：推論路徑不拍腦袋，用樹來找。面對海量可能的思維路徑，ReasonRAG 不靠直覺決策，而是借助蒙地卡羅樹搜尋（MCTS），系統性地搜尋"查不查、答不答"的多輪組合。每一次推論都像走迷宮，透過狀態-動作樹，逐步逼近最佳路徑。

第三步：偏好樣本，不求人自己造。過程監督數據不足不是問題，ReasonRAG 乾脆自己生成了 RAG-ProGuide。這個數據集中，模型透過前面兩步建構出的推論路徑被自動打分、排序，最終形成優劣對比示例，讓模型透過強化學習優化決策偏好。

第四步：偏好學習，讓選擇有章可循。有了明確的偏好對比，ReasonRAG 使用 DPO 優化策略，幫助模型逐步學習，做出更優決策。

第五步：推論流程靈活調度。ReasonRAG 設計了清晰的推論控制流。模型能根據當前任務狀態動態決定是否檢索、是否生成答案，能夠靈活調用各個能力模組，實現智能、有序的思維推進。

實驗結果

效能對比

論文在五個權威問答數據集上與 12 個 SOTA 方法進行了系統對比，結果展示了 ReasonRAG 在數據效率、多跳推論和泛化能力上的顯著優勢：

數據效率高：僅用 5k 訓練樣本，ReasonRAG 即在平均 EM（34.4%）和 F1（42.3%）上超越 Search-R1（訓練數據 90k，EM 32.8%，F1 40.7%）。過程獎勵顯著優於傳統的結果獎勵。

多跳推論更強：在 HotpotQA 上，ReasonRAG 以 48.9% 的 F1 分數超越 AutoRAG（43.7%）和 Search-R1（47.0%），展現出強大的複雜推論整合能力。

跨領域泛化能力好：在 Bamboogle 和 MuSiQue 等挑戰性測試集上，ReasonRAG 表現穩定領先，顯示其推論策略具備良好的遷移性與強韌性。

訓練效率

ReasonRAG 在 PopQA、HotpotQA 和 2WikiMultiHopQA 上的 EM 表現隨 GPU 小時數增長，始終快於 Search-R1，表明其更高的訓練效率。

優化策略

實驗進一步對比了不同優化策略的效果：包括基礎模型（Base）、監督微調（SFT）、結果監督（ORL）和過程監督（PRL）。

結果顯示，ReasonRAG 在所有數據集上均取得最佳效能，表明過程獎勵所帶來的精細化回饋機制更有助於學習複雜的推論策略。

總結與未來方向

ReasonRAG 提出了一種基於過程獎勵的 Agentic RAG 強化學習訓練範式，展現出在訓練效率、複雜推論能力與泛化效能上的潛力。相比傳統結果監督方法，過程級監督提供了更細粒度、更穩定的優化訊號，尤其適用於多輪、複雜任務的學習。

未來可進一步探索：

• 建構更豐富的過程獎勵體系，引入資訊冗餘懲罰等多維回饋訊號；

• 推廣至更多任務場景，如多模態問答、程式碼推論、複雜工具調用等 Agentic 應用。

技術交流群邀請函

△長按添加小助手

掃描二維碼添加小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合建構的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。

過程監督>結果監督！華為港城重構RAG推論訓練，5k樣本效能超越90k模型

分享短網址