大模型強化學習新突破——SPO新範式助力大模型推論能力提升!

圖片

目前,強化學習(RL)在提升大型語言模型(LLM)推論能力方面展現出巨大潛力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分證明了 RL 在增強 LLM 複雜推論能力方面的有效性。

然而,要實現有效的強化學習,需要解決一個根本性的挑戰,即信用分配問題(credit assignment):在大型語言模型的場景下,如何將整個序列(LLM 的回覆)最終的評估結果,歸因到序列中具體的決策動作(token)上。

這個問題的困難在於獎勵訊號非常稀疏 — 只能在序列結束時才能獲得明確的成功或失敗回饋。

目前主要方法

在強化學習中,通常採用優勢值估計(advantage estimation)的方法來解決信用分配問題。目前針對大型語言模型的強化學習方法主要分為兩類,它們之間的區別在於優勢值估計的粒度不同。

粗粒度的軌跡級 (trajectory-level) 方法,例如 DeepSeek R1 使用的 GRPO,只根據最終的獎勵為整個序列計算一個優勢值。這種方法雖然高效,但回饋訊號過於粗糙,LLM 無法對錯誤回答中正確的部分給予獎勵,也無法對正確回答中冗餘的部分給予懲罰。

另一種極端是細粒度的詞元級(token-level)方法,例如經典的 PPO。這類方法為每個詞元估計優勢值,需要依賴額外的評論員(critic)模型來預測每個詞元的狀態價值(V 值)。然而,在大型語言模型的強化學習任務中,不同提示(prompt)對應的軌跡分布差異很大,而且在訓練過程中每個提示採樣出來的模型回覆數量非常有限,評論員模型難以訓練好,造成詞元級的優勢值估計誤差很大。

新的 SPO 框架

為突破這個瓶頸,來自中科院軟體所和香港城市大學的研究團隊創新性地提出了分段策略最佳化(Segment Policy Optimization, SPO)框架。

圖片

論文題目:Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

作者:Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu

連結:https://arxiv.org/abs/2505.23564

程式碼連結:https://github.com/AIFrameResearch/SPO

SPO 使用了一種中等粒度的段級(segment-level)優勢值估計方式。它不像軌跡級方法只在最後一步計算優勢,也不像詞元級方法每步都計算優勢,而是將生成的序列劃分為若干相連的段落,計算每個段落的優勢值。

這種段級的優勢值估計方式具有幾個明顯的優勢:

(1) 更優的信用分配:相較於軌跡級方法,段級方法能夠提供更局部化的優勢回饋,讓模型能夠獎勵錯誤回答中仍有價值的部分,同時也能懲罰正確回答中冗餘和無效的片段。

(2) 更精確的優勢值估計:相較於詞元級方法,段級方法所需的估計點數量更少,因此能夠有效利用蒙地卡羅(Monte Carlo, MC)採樣得到更精確且無偏的優勢值估計,而無需再依賴額外且不穩定的評論員模型。

(3) 更彈性、更易調整:段級的劃分方式可以任意定義,並不要求語義上的完整性,因此可以彈性地在詞元級與軌跡級之間自由調整粒度,並且可以適應不同的任務和應用情境。

SPO 框架主要包含三個核心部分:(1) 彈性的段級劃分策略;(2) 基於蒙地卡羅採樣的段級優勢值估計;(3) 利用段級優勢值進行策略最佳化。

這種模組化設計使框架具備高度的彈性,不同的部分可以有不同的實現策略,以適用不同的應用情境。

該團隊進一步針對不同的推論情境提出 SPO 框架的兩個具體實例:對於短的思維鏈(chain-of-thought, CoT)情境,提出了 SPO-chain,該方法使用基於切分點(cutpoint-based)的段劃分和鏈式優勢值估計;對於長 CoT 情境,提出大幅提升 MC 採樣效率的樹狀結構優勢值估計方法。

此外,該團隊還提出了一種詞元機率遮罩(token probability-mask)策略最佳化方法,選擇性地對段內的低機率詞元計算損失而非段內的所有詞元。作者認為這些詞元是模型推論軌跡可能發生分岔的地方,是段級優勢值產生主要原因。這種方法可以用於 SPO-chain 和 SPO-tree,從而進一步強化信用分配。

框架及核心技術

SPO 框架主要圍繞以下三個具挑戰性的問題進行設計:(1) 如何將生成的序列劃分為多個段落?(2) 如何精確且高效地估計每個段落對應的優勢值?(3) 如何利用段級優勢值來更新策略?SPO 的三個核心模組分別解答上述三個問題,每個模組包含多種可選策略,以適用於不同的情境:

圖片

1. 段劃分 (Segment Partition):

a) 基於切分點的段劃分 (Cutpoint-based Partition): 為短思維鏈情境設計,將段劃分點放置在狀態值(V 值)更有可能發生變化的地方。根據詞元機率動態確定段邊界,優先在模型「猶豫」或可能改變推論路徑的關鍵點(cutpoints)進行劃分,使信用分配更精確。例如,在下圖例子中,標記為紅色的詞元是關鍵點,而標記為藍色的豎槓是分段結果。

圖片

b) 固定詞元數量段劃分 (Fixed Token Count Partition): 將序列劃分為固定長度的段落,便於樹狀結構的組織和優勢值估計,為 SPO-tree 設計。

2. 段級優勢值估計(Segment Advantage Estimation):

圖片

a) 鏈式優勢值估計 (Chain-based) 方法:在短思維鏈情境下,MC 採樣的成本不高,該團隊採用一種直接的段級優勢值估計方式,獨立估計每個段邊界的狀態值(V 值),然後計算段級優勢值。以下公式展示了鏈式優勢值的估計方法。

圖片圖片

b) 樹狀優勢值估計 (Tree-based): 在長思維鏈情境下,MC 估計的代價很高,團隊提出了一種高效的樹狀估計方法:將採樣軌跡組織成樹狀結構,透過由下而上的獎勵聚合計算狀態價值(V 值),同一個父節點的子節點形成一個組,在組內計算每個段落的優勢值。這種方式將用於 V 值估計的樣本同時用於策略最佳化,大幅提高了樣本效率。以下公式展示了樹狀優勢值估計方法。

圖片

3. 基於段級優勢值詞元機率遮罩策略最佳化(Policy Optimization Using Segment Advantages with Token Probability-mask):

在得到段級優勢值以後,為了進一步提高信用分配,團隊創新性地提出詞元機率遮罩策略最佳化方法,在策略更新時僅將段級優勢值分配給該段內的低機率(關鍵)詞元,而非所有詞元。這種方法能更精確地將獎勵/懲罰賦予關鍵的決策點,提升學習效率和效果。下面分別展示了 SPO-chain 和 SPO-tree 的最佳化目標。

a) SPO-chain 最佳化目標:

圖片圖片

b) SPO-tree 最佳化目標:

圖片圖片

對比基準方法

如下圖所示,在短思維鏈情境,使用 RhoMath1.1B 作為基礎模型,使用 GSM8K 訓練集進行訓練,對比各種訓練演算法,使用 SPO 訓練得到的模型測試集正確率更高。

圖片

對於長思維鏈情境,如下圖所示,使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基礎模型,使用 MATH 資料集進行訓練,在相同的訓練時間下,測試集正確率比 GRPO 更高。

圖片

下表展示了在長思維鏈情境下的更多對比結果:與同期基於相同基礎模型(DeepSeek-R1-Distill-Qwen-1.5B)並使用 GRPO 方法訓練得到的模型(DeepScaleR、STILL-3)相比,儘管 SPO 僅使用 MATH 資料集且僅使用 4K 的最大上下文長度進行訓練,SPO-tree 在各個上下文長度評測下表現優秀。值得注意的是,儘管 DeepScaleR 在 32K 上下文長度評測下表現最佳,但它在較短上下文長度(2K 與 4K)下卻表現最差,甚至不及原始基礎模型。這表明,GRPO 訓練方法可能未有效最佳化模型的詞元效率,導致輸出存在較多冗餘,因此在上下文長度有限的情形下出現正確率下降的問題。

圖片

分段粒度的影響

圖片

透過實驗發現,很細的粒度 (int2,每個兩個切分點進行分段),相較於中等粒度 (int5),僅有微小提升,但是過粗的粒度 (int100),相較於中等粒度 (int5),正確率下降很大。證明了 SPO 採用中等粒度優勢值的有效性。

段劃分方式的影響

圖片

實驗表明,在短思維鏈情境下,採用提出的基於切分點的段劃分方式效果最好,優於採用換行符進行劃分(VinePPO)以及固定詞元數量劃分(Fixed-token-count)。

詞元機率遮罩消融

圖片

實驗表明,將詞元機率遮罩去除會導致 SPO-chain 正確率下降,更值得注意的是:將詞元機率遮罩應用到 GRPO 上,會讓其正確率有明顯上升。

不同樹狀結構的影響

圖片

實驗表明,較小的樹狀結構在早期正確率較高,可能因為更快地掃過更多資料樣本。然而隨著訓練的進行,較大的樹狀結構會有更好的正確率,因為較大的樹狀結構對於段級優勢值的估計更為精確。

總結

這項工作提出了一種基於中間粒度段級優勢值的強化學習訓練框架 SPO,在詞元級和軌跡級之間取得更好的平衡,具有比軌跡級更好的信用分配,同時僅需要少量優勢值估計點,可以使用有效無偏的蒙地卡羅方式進行估計,不需要額外的評論員模型。

文章同時提出了 SPO 的兩個實例,為短思維鏈情境設計的 SPO-chain 以及為長思維鏈情境設計的 SPO-tree,透過實驗證明了 SPO 框架和兩個實例的有效性。

圖片

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com

主標籤:強化學習

次標籤:大型語言模型人工智慧策略最佳化信用分配問題


上一篇:爭奪終極量子運算架構的七個競爭者

下一篇:「AGI永遠無法實現」|Google CEO 最新訪談

分享短網址