10行程式碼,AIME24/25提升15%!揭密大型模型強化學習的熵機制

圖片

本文作者分別來自清華大學、北京大學、上海AI實驗室等機構。本文共同第一作者崔淦渠、張宇臣、陳嘉誠來自上海AI實驗室,研究方向為大型模型的推理增強。通訊作者為上海AI實驗室成宇教授、上海AI實驗室周伯文教授、清華大學丁寧助理教授。

Nature never undertakes any change unless her interests are served by an increase in entropy.

自然界的任何變化,唯有在熵增符合其利益時方會發生——Max Planck

在強化學習中,我們又該如何讓熵增符合我們的利益?

近日,來自上海人工智慧實驗室、清華大學、北京大學、UIUC 等機構的研究人員的工作揭示了大型模型強化學習中的熵變化機制。研究內容主要如下:

定義了強化學習中的熵塌縮問題,並從 4 個模型家族,11 個模型上總結了熵與效能之間的經驗轉換公式,證明了策略熵在強化學習中的重要性。

從理論與實踐的角度發現了強化學習時的策略熵變化的驅動力:動作(模型輸出的 token)發生的機率及其對應獲得的優勢之間協方差。

從該角度出發,研究提出了兩種簡單(10 行程式碼的修改)但十分有效的(AIME24/25 + 15%)的熵強化學習方案 Clip-Cov 與 KL-Cov,實現了模型在強化學習訓練過程中的持續探索。

圖片

論文標題:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

論文連結:https://huggingface.co/papers/2505.22617

程式碼倉庫:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

1. 大型模型強化學習中的熵塌縮問題

強化學習的核心挑戰在於利用與探索的權衡,即在重複驗證策略與尋找新策略之間取得平衡。對於探索而言,衡量策略探索潛力的關鍵指標是策略熵,它反映了策略在動作選擇過程中的不確定性。在強化學習研究中,抑制策略熵的衰減被視為大多數演算法的關鍵,傳統強化學習中,研究者常透過正規化手段主動調控策略熵。

對於大型語言模型,雖然策略熵的典型行為尚未得到充分研究,但我們在大量實驗中發現了一個有趣且一致的模式:策略熵在短短幾步訓練內就會急劇下降至接近零,表明策略變得極度確定。這種探索能力的缺失直接導致效能停滯,驗證集表現也同步陷入瓶頸。定量分析進一步揭示,在沒有熵干預(如熵損失或 KL 正規化)的情況下,下游效能 (R) 完全由策略熵 (H) 決定,其擬合曲線符合簡單的指數函數 R = -a exp (H)+ b,如下圖所示。本質上,策略正在以可預測的方式用不確定性(熵)換取獎勵。

圖片

圖 1 展現了大型模型強化學習中的熵塌縮問題

在 Qwen, Mistral, LLaMA 和 Deepseek 模型家族上,我們驗證了這一點:

圖片

圖 2 不同模型家族中的熵塌縮現象

這一經驗法則衍生出兩個重要推論:(1)類似於 Scaling Law,利用與探索曲線在給定策略模型和訓練數據時即已確定。這使得我們能在強化學習早期預測策略表現,並從小模型推演大型模型效能。(2)更重要的是,該方程式表明當策略熵耗盡時(H = 0, R = −a + b),策略效能的上限也隨之確定,這意味著單純增加訓練算力對強化學習的收益可能極其有限。因此,簡而言之,要實現可擴展的強化學習,必須突破熵瓶頸。

圖片

圖 3 訓練前期預測模型最終效能

圖片

圖 4 小模型預測大型模型

2. 大型模型強化學習中熵與協方差的關係

解決這一問題的關鍵在於理解現象背後的機制:為何策略熵會單調遞減?為此,我們從理論和實驗兩個維度分析了策略熵的動態特徵。核心發現表明,對於採用 softmax 策略的 LLMs,連續兩步間的熵變化正比於動作對數機率與對應 logit 變化的協方差。進一步地,在策略梯度和自然策略梯度類演算法中,logit 差異與動作優勢度成正比。

直觀而言,高優勢度且高機率的動作會降低策略熵,而高優勢度的罕見動作則會增加熵。這一理論結論得到了實驗驗證:訓練初期,策略在訓練數據上表現出高協方差,說明策略置信度良好,因此能安全地利用高置信軌跡,強化置信度並最小化熵(這也與最近一些最小化熵來提高效能的工作結論吻合);隨著訓練推進,協方差雖逐漸降低但仍保持正值,持續將策略熵拖向更低水準。

圖片

公式 1 對於熵與協方差的理論分析

圖片

圖 5 熵與協方差的實證分析

3. 基於協方差的熵強化學習方案

我們首先透過實驗驗證了,傳統熵 / KL 正規化方法在大型模型中收效甚微。

圖片

圖 6 傳統正規化手段失效

而對熵動力學的分析表明,高協方差會阻礙強化學習的可擴展性,這為提升策略熵提供了方向——限制高協方差 token 的更新步長。基於此,我們設計了兩種熵控制策略 Clip-Cov 和 KL-Cov,分別替代損失中的 clip 和 PPO-KL 方法。Clip-Cov 隨機選取少量高協方差 token 並 detach 其梯度:

圖片圖片

公式 2 Clip-Cov

KL-Cov 則更簡單,直接對協方差最大部分的 token 施加 KL 懲罰:

圖片圖片

公式 3 KL-Cov

實驗證明,透過調節閾值參數可主動控制策略熵,使模型擺脫低熵陷阱:

圖片

圖 7 透過 Clip-Cov 與 KL-Cov 來控制熵

實驗表明,在數學推理等任務中取得更優異的表現,在 Qwen2.5-32B 上,我們獲得了 6.4% 的提升,尤其在 AIME24/25 這樣具有挑戰性的資料集上,提升更是達到 15%。

圖片

圖 8 Clip-Cov 與 KL-Cov 方法下熵、輸出長度、效能的訓練動態

圖片

圖 9 Clip-Cov 與 KL-Cov 的效能

本研究致力於解決大型語言模型推理任務中強化學習的策略熵塌縮問題。透過實證分析,我們發現效能提升往往以犧牲探索能力為代價,這種權衡關係為模型改進設定了可預見的效能上限。為深入理解這一現象,我們從理論層面解析了熵的動態變化規律,並提出兩種簡單的正規化技術——Clip-Cov 與 KL-Cov,透過直接調控高協方差標記來有效遏制熵塌縮。

展望未來,訓練算力將逐漸從預訓練階段轉向後訓練階段,尤其是強化學習。在透過增加算力擴展強化學習的道路上,保持探索能力、發現新路徑、實現持續改進至關重要,唯有如此才能更高效地利用算力。但實現強化學習的規模化發展需要突破單純熵最小化的局限。我們期待這項研究能為熵的作用機制提供新見解,促進對 LLM 強化學習底層機制的理解、分析與最佳化,推動強化學習向更高層次的智能邁進。

圖片

© 完

轉載請聯絡本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com

主標籤:強化學習

次標籤:大型語言模型機器學習深度學習人工智慧


上一篇:讓AI也能「權衡利弊」?DecisionFlow讓大型語言模型更理解高風險決策!

下一篇:奧特曼:Codex 讓我感覺到 AGI!最新對談罕見透露下一代「完美模型」,大膽預測 AI 代理明年將突破界線!

分享短網址