SFT+RL雙階段訓練突破大型語言模型自我監督！人大DeepCritic實現AI批判自主進化

論文標題

DeepCritic: Deliberate Critique with Large Language Models

論文連結：

https://arxiv.org/abs/2505.00662

程式碼連結：

https://github.com/RUCBM/DeepCritic

作者團隊：

中國人民大學高瓴人工智慧學院、北京交通大學電腦科學與技術學院

問題背景

大型語言模型（LLM）透過大規模學習人類資料並從人類監督回饋中不斷演進，在許多任務上展現出卓越的效能。然而，隨著模型智慧的持續增強，依賴人工監督的方式也面臨著越來越高的成本和難度。如何以更高效、可擴展的方式對日益演進的模型進行監督，成為非常重要且亟待解決的關鍵問題。

一種具有潛力的解決途徑是利用大型語言模型自身作為批判家（LLM Critics）對模型的生成內容進行評判和回饋。LLM critics 透過生成批評意見，幫助改進模型輸出，從而有望替代人工回饋工作，實現 LLM 自動監督與持續最佳化。

但是一些研究發現，現有 LLM critics 在處理例如數學推理等複雜領域時，表現仍較為落後。

作者分析了其中原因，發現現有 LLM critics 在批判時缺乏批判性思維，常常只會按照原始推理步驟中的邏輯進行簡單的重複驗證，而非以質疑的角度進行批判和深入分析，這使得其經常受到原始推理步驟中的錯誤誤導而不能發現問題（見圖 1）。

這個缺陷導致兩個核心問題：一是判斷結果準確率低下；二是提供的批判資訊缺乏指導性，難以為生成模型提供有效的改正和最佳化方向。

▲ 圖1. 現有的 LLM critics 只能生成粗淺、表面的批判，導致正確率低下。本研究訓練的批判模型能夠結合迭代式評判、多角度驗證以及元批判等機制，在做出判斷前進行深思熟慮的推理，生成詳細的回饋和準確的判斷。

本研究旨在解決當前 LLM critics 在數學推理任務上生成的批判過度表面、膚淺的問題，提出了 DeepCritic 框架，透過監督微調（SFT）和強化學習（RL）兩階段訓練得到深思熟慮的 LLM critics。

基於 Qwen2.5-7B-Instruct 訓練得到的 DeepCritic-7B-RL 模型在不同數學錯誤識別基準上顯著超越了目前的 LLM critics，包括 GPT-4o，Qwen2.5-72B-Instruct，和同規模的 DeepSeek-R1-Distill models。DeepCritic-7B-RL 還可以分別作為 verifier 和 critic 進一步提升生成模型的 test-time scaling 結果。

兩階段訓練增強 LLM 批判能力

2.1 監督微調教會 LLM 深思熟慮地批判

在第一階段，為了教會當前 LLM 深度批判的行為和格式，作者首先從頭建構了長思維鏈形式的批判資料，進行監督微調（SFT）使 LLM 具備初步的深度批判能力。

具體地，作者提出了一種分階段、逐步增強的批判生成流程，透過引導模型進行更深層次的思考與自我反思，提升其判斷準確性與回饋品質。生成方法包括以下三個關鍵步驟：

初始批判生成：首先，從人工標註的 PRM800K 中選取一小部分帶有人工標註步驟正確性的問題和步驟，呼叫大型模型（Qwen2.5-72B-Instruct）依序對每一步推理過程單獨批判，生成對於每一步的初始批判。

深度批判生成：然而，正如上述所示，現有大型模型的直接批判往往容易流於表面，缺乏真正的批判性思維。

所以，這一步驟中給定問題、推理步驟和初始批判，再次引導模型從不同角度和不同驗證方法重新評估和批判，或對初始批判本身進行重新審視，發現初始批判沒有找到的問題或者初始批判本身存在的問題，形成更有深度和反思性的元批判，有效糾正初始誤判。

最終批判融合和監督微調：最後，留下判斷結果與人工標註一致的所有深度批判和對應的初始批判，將它們糅合成一條長思維鏈，形成每一步更為成熟、細緻的最終批判文本。

並把針對每一步的最終批判拼接得到對於整條解答的深度批判文本，以此共建構了約 4.5K 條高品質的監督微調資料。透過對基礎模型（Qwen2.5-7B-Instruct）進行監督微調，最終得到具備多輪評估、多角度驗證和元批評能力的初始評論模型 DeepCritic-7B-SFT。

▲ 圖2. 兩階段訓練流程示意圖

2.2 強化學習激勵 LLM 深思熟慮地批判

在完成了第一階段的有監督微調，建構出具備初步深度批判能力的模型後，第二階段的目標是進一步激發模型的潛力，使其在評判複雜推理過程中表現得更加精準和靈活。為此，作者採用強化學習（RL）對模型進行進一步訓練。

強化學習階段的關鍵在於高品質資料的獲取。作者分別在兩種不同的資料來源設定下探索 RL 訓練：

人工標註資料：直接使用已有的人工標註資料集 PRM800K，這是最理想的資料來源，具備可靠的標籤資訊。

自動建構資料：考慮到人工標註成本逐漸高昂、不可持續的現實，作者還採用了一個無需人工標註的資料自動建構流程。

具體來說，從 NuminaMath-CoT 中抽取部分題目，使用 Qwen2.5-1.5B/3B/7B-Instruct 為每道題生成多個解題路徑，並過濾掉太簡單或者太難的題目。對於剩下的解題路徑，透過蒙地卡羅採樣估計法，評估每一步推理的正確性：

（1）對錯誤解題路徑中錯誤步驟的識別：將解答在某一步截斷，並讓生成器模型（Qwen2.5-7B-Instruct）從該步開始多次展開後續步驟。如果該步及其後所有推理步驟在所有展開中都錯誤，且該步之前的所有步驟的各自多數展開能得到正確答案，則將該步標記為第一個錯誤步驟。

（2）對正確解題路徑的驗證：對於最終答案正確的解，也應用相同的策略來檢測其中是否存在錯誤的中間步驟，確保標籤精確和樣本品質。

最終將 DeepCritic-7B-SFT 模型在 40.7K PRM800K 樣本上或者 14.2K 自動建構樣本上分別訓練得到模型 DeepCritic-7B-RL-PRM800K 和 DeepCritic-7B-RL-Numina。

實驗效果

3.1 數學批判任務主要實驗結果

▲ 表1. 各模型在不同數學批判任務基準資料集上的表現。指標是在錯誤推理路徑中找到第一個出錯步驟的準確率和對正確路徑判定成功的準確率之間的 F1 值。

作者在多個數學評估基準上系統評估了不同模型的批判能力，結果見表1。主要實驗結論如下：

（1）基礎指令微調模型批判能力普遍較弱，尤其是小型模型；隨著模型規模提升，批判能力也相應增強。

（2）DeepSeek-R1-Distill 系列模型因其數學推理能力得到顯著增強，在數學批判任務中的表現也取得了提升。但該系列模型往往傾向於利用自身的解題能力來輔助判斷推理步驟對錯，並沒有真正學會做評估和批判，因此在面對難題（如 Omni-Math）時 F1 得分仍相對較低。

（3）透過在精心建構的 4.5K 批判資料上微調後的 DeepCritic-7B-SFT 模型在平均 F1 得分上相較於基礎模型 Qwen2.5-7B-Instruct 從 34.1 提升到 54.1，提升幅度達 20 個百分點。這證明建構的深思熟慮批判資料具有極高品質，也驗證了「教模型進行深思熟慮的批判」這一動機的有效性。

（4）在強化學習階段，僅使用 14.2K 條自動建構的資料，DeepCritic-7B-RL-Numina 模型的 F1 分數又提升到了 63.5，進一步說明自動建構資料是可行且有效的，有望實現 LLM 批判能力的自動化、可擴展提升。

（5）當使用高品質大規模標註資料進行強化學習後，衍生模型 DeepCritic-7B-RL-PRM800K 在 6 個評測子集中的 5 個上擊敗包括 GPT-4o 和同規模 DeepSeek-R1-Distill 系列在內的所有基準模型，取得最佳綜合表現。

3.2 幫助生成模型在推理階段實現更好的 Test-Time Scaling 結果

批判模型能透過擴展生成模型在測試時的計算（Test-Time Scaling），提升生成模型的效能。

一方面，批判模型可以充當驗證器（verifier），判斷生成模型採樣出的回答是否正確。透過濾除被識別為錯誤的回答，可以獲得更準確的 majority voting 結果，提高最終解答的準確率。

另一方面，生成模型也可以根據批判模型的回饋對潛在錯誤的回答進行修正，透過不斷的「批評—修正」過程進一步逼近正確答案。

作者選用了兩個不同規模的生成器進行實驗：Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct，並在 MATH500 和 AIME2024-2025 兩個資料集上進行評估。

作者選取了 DeepCritic-7B-RL-PRM800K 作為實驗對象（簡寫為 DeepCritic-7B-RL）。基準模型為 Qwen2.5-7B-Instruct 和 DeepSeek-R1-Distill-Qwen-7B（簡寫為 DS-R1-Distill-Qwen-7B）。

▲ 圖3. 用不同模型充當 verifier 後生成模型在 MATH500 和 AIME24-25 上的 verified majority voting 結果。

批判模型充當驗證器的實驗結果如圖 3 所示。可以觀察到，當批判模型本身能力較弱時（如 Qwen2.5-7B-Instruct），將其作為驗證器參與多數投票反而可能適得其反，降低整體性能。

相比之下，DeepCritic 模型在大多數採樣設定中能夠更有效地提升生成器的多數投票性能，帶來更明顯的改進。

▲ 表2. 基於批判內容的修正結果。「w→c」表示經過判斷與修正後，原本錯誤的解答變為正確的比例；「c→w」表示相反的情況，即原本正確的解答變為錯誤的比例。「Acc.」表示在所有測試樣本上的平均準確率。

即使強調了在識別出第一個出錯步驟後就停止批判，DeepSeek-R1-Distill-Qwen-7B 仍舊經常批判到結束並給出正確答案（即其指令遵循能力較差）。

這一問題會導致生成器的修正結果受到 DS-R1-Distill-Qwen-7B 自身解題能力的較大影響，存在偏差。因此，將其結果單獨列出，僅作為參考。

可以看到，DeepCritic-7B-RL 模型能夠有效輔助生成器進行錯誤修正，透過提供更詳細的回饋顯著提升生成器的最終性能。值得注意的是，7B 批判模型同樣能夠監督並糾正 72B 生成模型的輸出，展現出弱至強監督的潛力。

案例分析

以下關於 DeepCritic-7B-SFT 和 DeepCritic-7B-RL 的推理案例展示了 DeepCritic 系列模型在執行批判任務時具備了多角度驗證、元批判、自我反思與糾錯等關鍵推理和評估能力。

▲ 圖4. DeepCritic-7B-SFT 的案例分析

▲ 圖5. DeepCritic-7B-RL-PRM800K 的案例分析

未來展望

本研究初步驗證了透過精心建構的深思熟慮批判資料進行監督微調結合強化學習，可以有效提升大型語言模型在數學領域的批判與監督能力。

本研究為實現更廣泛、更可靠、可擴展的人工智慧監督機制提供新的啟示。但是仍有許多值得探索的方向。例如，現階段的研究聚焦於數學推理場景，嘗試將該批判框架拓展至程式碼、開放領域等更多任務場景，以探索其通用性與跨領域潛力，是其中一個有趣的未來研究方向。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章品質階梯制結算

📬投稿通道：

• 投稿信箱：hr@paperweekly.site

• 來稿請備註即時聯繫方式（微信），以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

SFT+RL雙階段訓練突破大型語言模型自我監督！人大DeepCritic實現AI批判自主進化

分享短網址