今天分享一篇來自NVIDIA的研究論文,標題為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》(ProRL:長時間強化學習擴展大型語言模型的推理邊界)。
這篇文章探討了強化學習(RL)是否真正能擴展大型語言模型(LLM)的推理上限?還是僅僅最佳化了其基礎模型中已有的高獎勵輸出的取樣效率,以及持續擴展RL運算是否能可靠地提高推理效能。作者透過引入ProRL(Prolonged Reinforcement Learning)訓練方法,證明了透過有效的RL方法能持續提升LLM的推理上限。
該方法特點總結如下:
1. 訓練穩定性與效率: ProRL透過引入KL散度控制、參考策略重置以及多樣化的任務集,實現了長期的穩定訓練和持續的效能提升。
2. 卓越的效能表現: 訓練出的Nemotron-Research-Reasoning-Qwen-1.5B模型在各種Pass@k評估中持續優於基礎模型,包括基礎模型完全失敗的場景。在多個基準測試上,其效能甚至超越或匹敵了更大的DeepSeek-R1-7B模型。
3. 泛化能力強大: 模型在訓練2000多步後仍持續改進,表明RL訓練能夠有效利用更多運算資源,並能很好地泛化到未曾見過的分布外(OOD)任務和難度更高的任務。
4. 證明有效的RL能提升LLM的推理上限: 證明了延長RL訓練(ProRL)可以發現基礎模型中即使透過廣泛取樣也無法獲得的新穎推理策略,從而真正擴展了模型的推理能力,而非僅僅最佳化現有能力。
一、概述
• 標題: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
• 網址: https://arxiv.org/abs/2505.24864v1 (請注意,根據OCR內容,此網址指向一個未來日期2025年5月,這可能是OCR的預印本占位符或特定排版,實際論文發表時網址可能會有所不同)
• 作者: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
• 機構: NVIDIA
• 程式碼: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
1 動機
• 當前研究界普遍存在爭議,即強化學習(RL)是否真正擴展了語言模型的推理能力,還是僅僅增強了基礎模型中已有的高獎勵輸出的取樣效率。
• 現有RL研究存在局限性:過度依賴數學等專業領域進行評估,模型在預訓練和後訓練階段可能過擬合,限制了探索潛力;以及RL訓練過早終止,通常僅進行數百步,模型未能充分探索和發展新的推理能力。
• 本文希望證明透過長時間的、穩定的RL訓練,模型可以學習到基礎模型即使透過大量取樣也無法獲得的全新推理策略。
2 方法
重點摘要:
論文提出了ProRL(Prolonged Reinforcement Learning),一種新穎的訓練方法,旨在透過長時間、穩定的RL訓練來擴展大型語言模型的推理能力。其核心在於解決RL訓練中的熵崩潰和不穩定性問題,並透過多樣化的任務和策略最佳化手段,使模型能夠進行更深層次的探索和學習。
ProRL使得模型能夠進行2000步以上的長時間訓練,並在多樣化的任務上持續提升效能,最終開發出Nemotron-Research-Reasoning-Qwen-1.5B,一個在推理能力上顯著超越其基礎模型(DeepSeek-R1-1.5B)並匹敵甚至超越DeepSeek-R1-7B的模型。
詳細方法和步驟:
RL演算法選擇為何?: 還是採用DeepSeek的GRPO,與PPO不同,GRPO移除了價值模型,而是基於組分數估計基準線,並透過最大化其目標函數來進行最佳化。
何謂熵崩潰?如何緩解熵崩潰策略? 針對RL訓練中常見的熵崩潰問題(模型輸出分布過早收斂,限制探索),ProRL採用了多項措施:
• 高探索溫度: 在rollout階段使用較高的取樣溫度,鼓勵初期探索。
• 解耦裁切(參考DAPO): 引入DAPO演算法的解耦裁切機制,將PPO目標中的上下裁切邊界作為獨立超參數。提高值可以提升先前可能性較低的token的機率,鼓勵更廣泛的探索,有助於維持熵並減少過早的模式崩潰。
• 動態取樣(參考DAPO): 過濾掉模型能一致成功或失敗(準確率1或0)的Prompt,將訓練重點放在中等難度示例上,以維持多樣化的學習訊號。
• KL正規化: 引入KL散度懲罰項到GRPO目標函數中。這不僅有助於維持熵,還能防止線上策略偏離穩定參考策略過遠,從而穩定學習並減輕對虛假獎勵訊號的過度擬合。
• 參考模型重置(當出現驗證集表現變差時,更新參考模型): 為解決KL項可能在訓練後期主導損失,導致策略更新減弱的問題,ProRL週期性地將參考策略模型硬重置為線上策略的最新快照(即減少最新的線上模型和參考模型的差異,降低KL項的影響),並重新初始化最佳化器狀態。這種策略允許模型在保持KL正規化優勢的同時繼續改進,鼓勵長時間訓練。
• 多樣化訓練資料集建構: 建構了一個包含136K個問題的多樣化且可驗證的訓練資料集,涵蓋數學、程式碼、STEM、邏輯謎題和指令遵循等五大任務領域。每種任務類型都配有清晰的獎勵訊號(二元或連續),以實現訓練期間的可靠回饋,鼓勵泛化能力。
DAPO是什麼?主要採用了哪些技術?
• Clip-Higher: 該技術旨在提升系統的多樣性並避免熵崩潰。傳統 PPO 的裁切機制限制了策略的探索,Clip-Higher 透過解耦上下限裁切範圍,允許更自由地增加低機率 token 的機率,從而鼓勵探索。
• Dynamic Sampling: 動態取樣旨在提高訓練效率和穩定性。它過取樣並過濾掉準確率等於 1 或 0 的 prompt,保留有效梯度的 prompt,並保持 batch 中 prompt 數量的穩定。在訓練前,持續取樣直到 batch 被準確率非 0 或 1 的樣本填滿。
• Token-Level Policy Gradient Loss: token級策略梯度損失對於長 CoT (Chain-of-Thought) RL 場景至關重要。原始 GRPO 演算法採用樣本級損失計算,長回復中的 token 對總損失的貢獻可能不成比例地降低。Token-Level Policy Gradient Loss 使得更長的序列對梯度更新有更多影響,並對每個 token 的獎勵變化做出響應。
• Overlong Reward Shaping: 過長獎勵塑造旨在減少獎勵噪音並穩定訓練。對於被截斷的過長樣本,預設會分配懲罰性獎勵,但這會引入噪音。論文提出了 Overlong Filtering 策略來屏蔽截斷樣本的損失,並提出了 Soft Overlong Punishment 機制,對超過預定義最大長度的回復施加長度感知懲罰,以引導模型避免過長的回復。
實驗設置細節為何?
• 使用verl框架進行RL訓練。
• 採用AdamW最佳化器,學習率為2e-6。
• 在48個NVIDIA H100-80GB節點上進行訓練,總計約16k GPU小時。
• 透過混合驗證集密切監控訓練進度。當驗證效能停滯或下降時,執行參考模型和最佳化器的硬重置。
• 在訓練的大部分時間裡,將響應長度限制在8k token以內,以保持簡潔和穩定的生成。在最後階段,將上下文視窗增加到16k token。
3 結論
• RL確實能擴展推理邊界: 長時間、穩定的強化學習(ProRL)能夠使語言模型學習到其基礎模型中不存在的、全新的推理策略和解決方案。
• ProRL的有效性: ProRL訓練的模型(Nemotron-Research-Reasoning-Qwen-1.5B)在數學、程式碼、STEM、邏輯謎題和指令遵循等多種任務上顯著優於其基礎模型,並在某些情況下達到或超過了更大規模或領域專用模型的效能。
• 推理提升與初始能力和訓練時長相關: 模型推理邊界的改進程度與基礎模型在該任務上的初始能力以及RL訓練的持續時間密切相關。RL在基礎模型表現較弱的領域能帶來更大的提升,且持續訓練能讓RL探索並填充新的解空間區域。
4 局限性
• 運算資源需求龐大: ProRL所涉及的長時間RL訓練過程需要大量的運算資源,這可能對預算有限的小型組織或研究者構成障礙。
• 可擴展性問題: 雖然在1.5B參數模型上取得了成功,但該方法是否能有效擴展到更大規模的模型(如百億或千億參數)尚不明確,更大模型對運算資源的需求將更加顯著。
• 訓練過程複雜性: ProRL依賴週期性的參考策略和最佳化器硬重置來維持訓練穩定性,這增加了訓練過程的複雜性,並可能導致與更穩定訓練方法相比結果不一致。
• 任務範圍局限性: 儘管評估涵蓋了多樣化的領域,但訓練資料集仍只代表了所有可能推理任務的一個子集。模型在某些分布外任務上表現出有希望的泛化能力,但不能保證在所有未明確訓練的推理領域都有類似的改進。
二、總結
結論1: ProRL證明RL有效擴展了LLM的推理邊界。 透過長時間、穩定的RL訓練,證明了模型能夠發現基礎模型中未曾出現的新穎推理策略,並在多項任務上實現了超越基礎模型的效能,包括在OOD任務上的強大泛化能力。
結論2: ProRL透過創新技術確保了RL訓練的穩定性和效率。 針對RL訓練中常見的熵崩潰和不穩定性問題,ProRL引入了KL散度控制、參考模型週期性重置、解耦裁切和動態取樣等機制。這些技術使得模型能夠在長時間訓練(超過2000步)中持續進步,有效利用運算資源,為長期RL在推理任務中的應用奠定了基礎。