破除大型語言模型強化學習訓練中的「熵」詛咒，讓模型學會穩定成長！

❝ 一句話概括，論文認為大型語言模型（LLM）智能體犯錯不全是它的問題，更是學習演算法的問題，於是設計了一套「熵調變」的功勞分配新方法，讓正確的決策得到應有的「放大」獎勵，錯誤的決策受到加倍懲罰。（原論文題目見文末，點擊閱讀原文可直接跳轉至原文連結，Published on arxiv on 11 Sep 2025, by ByteDance）

第一階段：識別核心概念

論文的動機分析

想像一下，您正在教一個機器人完成一項複雜的任務，例如「線上預訂一張從北京到上海、特定日期的最便宜機票」。這項任務包含許多步驟：打開瀏覽器、搜尋航空公司網站、輸入出發地和目的地、選擇日期、比較價格、填寫個人資訊，最後點擊支付。

傳統的訓練方法（強化學習）存在一個巨大的問題：只有當機器人最終成功買到票時，您才會給它一個「做得好」的獎勵。如果它在任何一步失敗了，例如點錯日期或網站載入失敗，它最終得到的都是一個「失敗」的懲罰。

這種「成王敗寇」式的獎勵機制非常低效。機器人可能在前面9步都做得非常完美，只是最後一步出錯了，但它會認為所有10個步驟都是錯誤的。反之，它可能稀里糊塗地碰巧成功了，其中一些步驟其實非常冒險和不確定，但它會認為所有步驟都同樣正確。

這篇論文的動機就是要解決這個「粗糙的功勞分配」問題。作者們發現，標準的學習演算法（策略梯度）存在一個內在缺陷：

• 當模型對某個動作非常有信心（例如，它非常確定下一步應該點擊「搜尋」按鈕）時，學習訊號反而很弱。這意味著即使這個自信的動作是正確的，它也得不到足夠的強化，學習速度很慢。

• 當模型對某個動作非常不確定（例如，它在多個連結面前猶豫不決）時，學習訊號反而很強。如果這次不確定的探索碰巧帶來了好的結果，模型會過度強化這次「賭博」，導致學習過程非常不穩定。

作者的目標是設計一種更智能的「教練」，能夠根據模型在每一步的「信心」程度來動態調整獎勵和懲罰的力度，從而實現更高效、更穩定的學習。

論文主要貢獻點分析

• 列出論文聲稱的主要創新點

1. 識別並形式化了一個根本問題：論文首次明確指出並用數學語言證明了，在大型語言模型智能體中，策略梯度的大小與模型輸出的「熵」（可以理解為不確定性）是內在耦合的。這是一個關鍵的理論發現。

2. 提出了熵調變策略梯度（EMPG）框架：這是一個全新的學習框架，旨在解耦上述問題，實現更智能的功勞分配。

3. 引入了兩大核心技術：EMPG框架包含兩個關鍵部分：一是「自校準梯度縮放」（Self-Calibrating Gradient Scaling），二是「未來清晰度獎勵」（Future Clarity Bonus）。

• 找出支撐這些創新的關鍵技術或方法

1. 自校準梯度縮放：這項技術根據智能體在當前步驟的信心（熵）來調整學習訊號的強度。如果智能體自信且正確，就放大獎勵；如果自信但錯誤，就放大懲罰；如果不確定，就減弱學習訊號，避免學習過程被不穩定的探索行為干擾。

2. 未來清晰度獎勵：這項技術是一個額外的內在激勵。它鼓勵智能體採取那些能讓下一步變得更清晰、更不模糊的行動。這引導智能體去尋找那些更穩健、更可預測的成功路徑，而不僅僅是任何能成功的路徑。

• 論文有哪些顯著性的結果論文最顯著的結果是，他們的方法不僅僅是在數值上超越了現有的基準模型，更重要的是，它解決了基準模型遇到的「性能瓶頸」問題。實驗圖表顯示，傳統方法在訓練到一定程度後，性能就停滯不前了，好像撞到了一堵牆。而EMPG能夠幫助智能體突破這個瓶頸，持續學習和改進，最終達到一個顯著更高的性能水準。這表明EMPG從根本上改善了學習動態，而不僅僅是做了一些微小的優化。

理解難點識別

• 分析哪些概念/方法是理解論文的關鍵

1. 策略梯度（Policy Gradients）：這是強化學習的基礎，理解它才能明白論文改進的是什麼。

2. 熵（Entropy）：在本文中，熵是衡量模型不確定性的核心指標。理解熵的高低代表什麼至關重要。

3. 熵與梯度的耦合關係（Proposition 1）：這是論文的理論基石，是理解其動機的關鍵。

4. 優勢函數（Advantage Function）：這是策略梯度中的一個核心組件，EMPG的主要操作對象就是它。

• 找出這些概念中最具挑戰性的部分最核心且最具挑戰性的部分是「熵調變優勢函數」的設計，也就是論文中的公式（8）。這個公式融合了「自校準梯度縮放」和「未來清晰度獎勵」兩個部分，是整個EMPG框架的技術核心。理解這個公式如何將模型的「不確定性」轉化為具體的、可計算的獎勵調整，是理解本文的關鍵。

• 確定需要重點解釋的核心概念我們將重點解釋熵調變優勢函數（The Modulated Advantage）。因為它完美地體現了論文如何利用「熵」這個概念來智能地調整學習訊號，是所有思想的最終技術落腳點。

概念依賴關係

理解EMPG的邏輯鏈條如下：

1. 起點：標準強化學習中的「策略梯度」方法在處理長遠任務時功勞分配不均。

2. 問題根源：其學習訊號（梯度）的大小天然地與模型的「不確定性（熵）」綁定，導致學習效率低下且不穩定（理論發現）。

3. 解決方案：我們必須打破這種綁定，主動地去「調變」學習訊號。

4. 核心機制：透過設計一個新的「熵調變優勢函數」來實現。這個函數包含兩個部分：

• 根據當前步驟的熵，縮放原始的成功/失敗訊號。

• 根據下一步的熵，給予一個額外的獎勵。

5. 最終效果：實現了一個更智能、更高效、更穩定的學習過程，能夠突破性能瓶頸。

我們的切入點將是這個核心機制——熵調變優勢函數，因為它承上啟下，是理論與實踐的交匯點。

第二階段：深入解釋核心概念

設計生活化比喻：聰明的攀岩教練

想像一下，您是一位攀岩新手，正在跟著一位非常聰明的教練學習。您的目標是爬上一面複雜的岩壁（完成一個長遠任務）。

• 標準教練（傳統強化學習）：這位教練只在山腳下用望遠鏡看您。只有兩種回饋：

• 您成功登頂了，他會大喊：「幹得漂亮！您做的每一步都太棒了！」

• 您中途掉下來了，他會吼道：「太糟糕了！您做的每一步都是錯的！」這種回饋顯然沒什麼用，因為它沒有告訴您到底哪一步是關鍵的，哪一步是僥倖的。

• 聰明的EMPG教練：這位教練會跟著您一起爬，並觀察您的每一個動作。他不僅關心您最終是否成功，更關心您做每一個動作時的狀態。

這個聰明的教練有兩個獨特的指導原則：

1. 基於「信心」的回饋調整：他會評估您抓每一個岩點時的「信心」。

2. 鼓勵「清晰的下一步」：他會獎勵那些讓您下一步路線更明確的動作。

這就是EMPG的核心思想。

建立比喻與實際技術的對應關係

比喻中的元素 | 對應的技術概念 | 合理性解釋

您（攀岩者） | LLM智能體 | 都是執行複雜多步任務的主體。

攀上岩壁頂端 | 任務成功（獲得正獎勵） | 代表最終的、稀疏的積極回饋。

從岩壁上掉落 | 任務失敗（獲得負獎勵） | 代表最終的、稀疏的消極回饋。

您的每一個攀爬動作（抓/踩一個岩點） | 智能體的一個「思考-行動」步驟 | 任務是由一系列離散的步驟組成的。

您對一個岩點的信心 | 模型對當前步驟的「確定性」 | 一個穩固、巨大的岩點讓您信心十足；一個濕滑、細小的岩點讓您猶豫不決。

信心的量化指標（信心越高，數值越低） | 步驟熵 (Step-level Entropy, H_t) | 低熵意味著模型非常確定，輸出的機率分佈很集中（像抓一個大岩點）；高熵意味著模型很迷茫，輸出機率分散（像面對多個不確定的岩點）。

聰明的EMPG教練 | EMPG演算法 | 負責根據過程資訊來智能地調整學習訊號。

教練的指導手冊 | 熵調變優勢函數 (A_t^EMPG) | 這是EMPG演算法進行決策和回饋的核心規則。

深入技術細節

現在，我們從比喻過渡到技術本身，看看教練的「指導手冊」——熵調變優勢函數——究竟是怎麼寫的。

這個核心公式出現在論文的公式（8）：

原始數學形式:

A_t^EMPG = f_H(H_t) ext{·} A_t^raw + ext{lambda} ext{·} f_H(H_{t+1})

這個公式看起來複雜，但它其實就是教練的兩個指導原則的數學表達。我們來把它翻譯一下：

符號替換版本:

一個步驟的最終得分 = (整個任務的成敗結果 × 當前步驟的信心乘數) + (一個固定權重 × 下一步的清晰度獎勵)

現在我們逐一拆解這個「教練手冊」：

• 第一部分：基於「信心」的回饋調整 (Self-Calibrating Gradient Scaling)

• A_t^raw (整個任務的成敗結果): 這是標準教練的回饋。成功登頂就是+1，掉下來就是-1。

• f_H(H_t) (當前步驟的信心乘數): 這是EMPG教練的第一個法寶。它的計算方式大致是1/normalized H_t，其中H_t 是歸一化後的熵。具體來說：如果您抓一個非常穩固的岩點（低熵），這個f_H 函數的值會大於1，從而放大最終的成敗結果；反之，如果您抓一個非常猶豫的岩點（高熵），這個f_H 函數的值會小於1，從而縮小最終的成敗結果。

• 第二部分：鼓勵「清晰的下一步」 (Future Clarity Bonus)

• f_H(H_{t+1}) (下一步的清晰度獎勵): 這是教練的第二個法寶。它的計算方式和f_H(H_t) 類似，1/normalized H_{t+1}，但用的是下一步的熵。如果您的當前動作讓您下一步的路線變得非常清晰、選擇非常確定（下一步是低熵），f_H 函數就會給出一個較高的獎勵值。

• lambda (一個固定權重): 這是一個超參數，用來控制這個「未來清晰度獎勵」的重要性。

將技術細節與比喻相互映射

現在，我們把教練的行為和這個公式完美地結合起來。

• 情境1：自信且正確的關鍵一步

• 攀岩動作: 您成功登頂了 (A_t^raw = +1)。途中，您做了一個非常果斷的動作，抓住了一個巨大而穩固的岩點（當前步驟低熵）。

• 教練的回饋 (公式計算): f_H(H_t) 因為低熵而大於1，所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被放大的正數。

• 教練說的話: 「太棒了！您不但成功了，而且這一步抓得又穩又準，這是您成功的關鍵！我們必須牢牢記住這個動作！」

• 效果: 極大地強化了這個「自信且正確」的行為。

• 情境2：自信但錯誤的災難一步

• 攀岩動作: 您掉下來了 (A_t^raw = -1)。原因是，您非常自信地抓向一個看起來很穩固的岩點，結果它鬆動了（當前步驟低熵，但導致了壞結果）。

• 教練的回饋 (公式計算): f_H(H_t) 因為低熵而大於1，所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被放大的負數。

• 教練說的話: 「這是個嚴重的錯誤！您太過於自信地選擇了一個錯誤的路線，這是導致失敗的直接原因。我們必須深刻反思，以後絕不能再犯！」

• 效果: 極大地懲罰了這種「盲目自信」的錯誤，也就是論文中提到的「幻覺自信」（hallucinated confidence）。

• 情境3：不確定但幸運的探索

• 攀岩動作: 您成功登頂了 (A_t^raw = +1)。但其中有一步，您面對幾個濕滑的岩點非常猶豫，最後冒險跳了一下，僥倖成功了（當前步驟高熵）。

• 教練的回饋 (公式計算): f_H(H_t) 因為高熵而小於1，所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被縮小的正數。

• 教練說的話: 「雖然您成功了，但這一步太冒險了，運氣成分很大。我們慶祝成功，但不要把這次僥倖當成標準操作來學習。」

• 效果: 避免了對不穩定的探索行為進行過度獎勵，讓學習過程更穩定。

• 情境4：有遠見的規劃

• 攀岩動作: 您做了一個動作，這個動作本身可能有點難，但它讓您處在一個非常好的位置，下一步有幾個絕佳的、清晰的岩點可以選擇（下一步是低熵）。

• 教練的回饋 (公式計算): f_H(H_{t+1}) 因為下一步的低熵而產生一個正的獎勵值，所以最終得分加上了 lambda · f_H(H_{t+1}) 這個正向的「未來清晰度獎勵」。

• 教練說的話: 「我喜歡這一步！它不僅安全，更重要的是它為您的下一步鋪好了路，讓您接下來的路線一目了然。這才是深思熟慮的攀爬！」

• 效果: 鼓勵智能體進行規劃，尋找那些可持續、可預測的解決方案路徑。

比喻的局限性: 攀岩教練的比喻非常直觀，但它簡化了熵的計算。在實際技術中，「熵」是透過對模型輸出的所有可能詞元（token）的機率分佈進行計算得到的，是一個精確的數學量，而不僅僅是「感覺上」的信心。

總結

透過「聰明的攀岩教練」這個比喻，我們可以這樣總結EMPG的核心思想：

它不再是一個只看結果的「裁判」，而是一個深入過程的「教練」。它使用熵作為聽診器，來診斷智能體在每一步的「健康狀態」（確定性），然後透過熵調變優勢函數這個工具，開出個性化的獎懲藥方。這個藥方不僅治療當前的「病症」（透過信心乘數），還鼓勵「強身健體」（透過未來清晰度獎勵），最終培養出一個更強大、更穩健的大型語言模型智能體。

第三階段：詳細說明流程步驟

整個流程可以看作是對原始、粗糙的回饋訊號進行「精加工」的過程，最終得到精細化的、每一步都不同的學習訊號。

輸入：一批（例如16個）完整的智能體與環境的互動記錄（稱為「軌跡」）。每個軌跡都包含了一系列的「思考-行動」步驟，以及最終的任務結果（成功或失敗）。

輸出：更新後的大型語言模型智能體模型參數。

詳細流程步驟如下：

1. 步驟一：收集原始資料與計算初始回饋

• 首先，演算法會遍歷這一批16個任務的互動記錄。

• 對於每一個任務（軌跡），它會檢查最終的結果。如果任務成功，就給這個軌跡裡的所有步驟一個初始的、統一的正面「優勢值」（Advantage），例如+1。如果任務失敗，就給所有步驟一個統一的負面優勢值，例如-1。

• 到目前為止，這和傳統的、粗糙的回饋方式完全一樣。我們得到的是一個對每個步驟都「一視同仁」的原始分數。

2. 步驟二：【第一次遍歷】計算每一步的「不確定性」

• 接下來，演算法會進行第一次精加工的遍歷。它會逐一檢查這16個任務中的每一個「思考-action」步驟。

• 對於一個具體的步驟，例如智能體生成了「思考：我應該點擊『下一頁』按鈕。行動：點擊『下一頁』」這樣一段文本，演算法會計算生成這段文本時的平均熵。熵是透過分析模型在生成每一個詞（token）時的機率分佈得到的。如果模型在每一步都對要生成的詞非常確定（機率高度集中），那麼這個步驟的總熵就很低；反之，如果模型很猶豫，熵就很高。

• 演算法會把所有步驟的熵值H_t 都收集起來，形成一個包含數百甚至數千個熵值的大列表。

3. 步驟三：計算「調變工具」

• 有了所有步驟的熵值列表，演算法現在要準備兩個關鍵的「調變工具」：信心乘數f_H(H_t) 和未來清晰度獎勵f_H(H_{t+1})。

• 歸一化熵：演算法首先會對所有收集到的熵值進行「最小-最大歸一化」，將它們都縮放到0 到1 的範圍內。這確保了無論模型的整體信心水準如何，接下來的計算都有一個統一的標尺。

• 計算信心乘數：利用歸一化後的熵，演算法為每一個步驟計算出其對應的信心乘數f_H(H_t)。根據1/normalized H_t 公式，低熵的步驟會得到一個大於1的乘數，高熵的步驟會得到一個小於1的乘數。注意，這裡的f_H 還會進行「自校準」，即保證在一整個批次中，所有信心乘數的平均值恰好為1。這防止了學習訊號被整體放大或縮小，只是在步驟之間重新分配。

• 計算未來清晰度獎勵：同樣，演算法也會為每一個步驟計算一個潛在的未來清晰度獎勵f_H(H_{t+1})。這個值將在下一步被其「前一步」使用。

4. 步驟四：【第二次遍歷】應用調變，生成精細化回饋

• 現在，演算法進行第二次，也是最關鍵的一次遍歷。它再次逐一檢查所有步驟，這次的目標是更新每個步驟的「優勢值」。

• 對於第t 個步驟的處理——演算法會執行以下三個關鍵操作：取出該步驟在第一步中得到的原始統一優勢值 (例如+1 或-1)；找到該步驟對應的信心乘數f_H(H_t)，然後將兩者相乘：f_H(H_t) · A_t^raw，現在優勢值已經被當前步驟的信心水準調整過了；接著，演算法會查看是否存在第t+1 步，如果存在，它會取出第t+1 步的未來清晰度獎勵f_H(H_{t+1})，乘以一個權重lambda，然後加到當前第t 步的優勢值上。

• 經過這個過程，原來所有步驟共享的+1 或-1，現在變成了每一個步驟都獨一無二的、精細化的新優勢值A_t^EMPG。這個值同時包含了對當前步驟的信心評估和對未來的規劃考量。

5. 步驟五：最終處理與模型更新

• 中心化處理：為了進一步穩定訓練過程，演算法會計算出這一整批所有步驟的A_t^EMPG 的平均值，然後從每個A_t^EMPG 中減去這個平均值。這確保了最終的優勢值有正有負，整體為零，是一種標準的變異數縮減技術。

• 執行策略更新：最後，演算法使用這些經過層層加工、精細無比的最終優勢值作為學習訊號，透過策略梯度演算法來更新LLM智能體的模型參數。擁有高正向優勢值的步驟所對應的行為會被大力鼓勵；擁有高負向優勢值的步驟所對應的行為會被強烈抑制。

至此，一次完整的EMPG訓練迭代就完成了。透過這個流程，智能體不再是盲目地根據最終成敗來學習，而是從一個能洞察過程、評估信心、並鼓勵長遠規劃的「聰明教練」那裡獲得指導。

第四階段：實驗設計與驗證分析

主實驗設計解讀：核心論點的驗證

• 核心主張：EMPG透過智能的、基於不確定性的信用分配，能夠顯著提升LLM智能體在長時序、稀疏獎勵任務上的性能，並克服現有方法的性能瓶頸。

• 實驗設計：為了驗證這一主張，作者採取了一個非常直接且有說服力的設計：將EMPG作為一個「增強模組」，直接應用在兩個當前強大的基準方法（GRPO和DAPO）之上。實驗在三個公認的、具有挑戰性的智能體任務上進行。

• 選擇的合理性分析：

• 資料集：包括WebShop（模擬線上購物網站環境，任務複雜，需要遵循指令、瀏覽網頁、提取資訊，是測試長時序決策的黃金標準）、ALFWorld（基於文本的虛擬家居環境，結合了指令遵循和常識推理，考驗智能體的理解和規劃能力）、Deep Search（多步驟的資訊檢索和整合任務，不僅測試基礎能力，還被分成了域內In-domain, ID和域外Out-of-domain, OOD兩部分，這對於檢驗方法的泛化能力至關重要）。這些選擇涵蓋了網頁導航、具身互動、資訊檢索等多種典型的智能體場景，且都是領域內的公認基準，具有足夠的挑戰性和代表性。

• 評估指標：主要指標為成功率（Success Rate）和任務得分（Score）。對於這些目標明確的任務，成功率是衡量智能體是否能完成任務的最直接、最公正的指標。

• 基準方法：對比方法為GRPO (Group Relative Policy Optimization)和DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization)。這兩個都是近期在大型語言模型強化學習領域表現出色的方法。作者沒有選擇一個弱的基準來「欺負」，而是選擇在強者的基礎上進行提升。這種「強強聯合」的設計，使得任何性能的提升都更有可能歸功於EMPG模組本身，而不是因為基準太弱。

• 主實驗結果與結論：

• 實驗結果——如表1和表2所示，在幾乎所有的任務、模型尺寸（從1.5B到32B）和基準組合上，增加了EMPG模組後，性能都獲得了一致且顯著的提升。例如，在ALFWorld上，Qwen2.5-7B模型結合DAPO的成功率從90.0%提升到91.6%；在更具挑戰性的WebShop上，成功率從79.6%提升到82.7%。

• 結論——主實驗強有力地證明了EMPG的有效性和普適性。它不是一個只能在特定條件下工作的「偏方」，而是一個可以廣泛應用於不同策略優化演算法的、可靠的性能增強器。

消融實驗分析：內部組件的貢獻

• 消融實驗設計：為了搞清楚EMPG的兩個核心組件——「梯度縮放」（Gradient Scaling）和「未來獎勵」（Future Bonus）——各自扮演了什麼角色，作者在Deep Search任務上進行了消融研究（見表2下半部分）。他們分別測試了：① 僅使用梯度縮放；② 僅使用未來獎勵；③ 兩者都使用（即完整的EMPG）。

• 各組件與創新點的對應：

• 移除「未來獎勵」，只保留「梯度縮放」，旨在驗證「根據當前步驟信心調整回饋」這一創新的有效性。

• 移除「梯度縮放」，只保留「未來獎勵」，旨在驗證「鼓勵智能體尋找清晰下一步」這一創新的有效性。

• 實驗結果與結論：

• 僅使用梯度縮放：模型性能得到了提升，尤其是在OOD（域外）任務上增益最為顯著。這表明，透過衰減不確定步驟的更新，該機制教會了模型在面對未知情況時如何更加「穩重」，從而增強了模型的泛化能力和穩健性。

• 僅使用未來獎勵：模型性能也得到了提升，尤其是在ID（域內）任務上表現出色。這說明，該機制透過獎勵可預測的路徑，幫助模型更好地學習和利用（exploit）訓練數據中的已知成功模式。

• 完整的EMPG：性能提升最大，超越了任何單一組件。

• 結論——消融實驗清晰地揭示了兩個組件的互補性。梯度縮放像一個「正規化器」，負責探索和泛化；未來獎勵像一個「加速器」，負責利用和精通。兩者結合，實現了探索與利用的精妙平衡，證明了EMPG設計的完整性和協同效應。

深度/創新性實驗剖析：洞察方法的內在特性

除了證明「我能行」和「我的零件都有用」之外，作者還設計了兩個非常巧妙的實驗，來回答「為什麼我行」以及「我的設計為什麼是這樣而不是那樣」。

• 實驗一：訓練穩定性分析 (KL Loss Dynamics, 圖2)

• 實驗目的：直觀地證明EMPG能夠提升訓練過程的穩定性，防止在訓練後期出現「策略崩潰」現象。

• 實驗設計：作者追蹤並繪製了訓練過程中KL損失的變化曲線。KL損失衡量了模型每次更新前後的策略變化幅度。一個穩定、健康的訓練過程，其KL損失應該平穩且保持在較低水準。劇烈、頻繁的尖峰則意味著模型正在進行非常激進、不穩定的更新。

• 實驗結論：圖2顯示，基準DAPO模型在訓練後期出現了劇烈的KL損失尖峰，表明其策略變得極不穩定。而EMPG增強後的模型，其KL損失曲線從始至終都非常平滑。這強有力地證明了EMPG中的「自校準梯度縮放」機制（特別是對高熵步驟的更新衰減）起到了有效的正規化作用，像一個「穩定器」，確保了智能體能夠穩健地收斂到一個高性能策略。

• 實驗二：步驟熵 vs. 詞元熵動態分析 (圖3)

• 實驗目的：為論文的一個核心設計選擇——在「思考-行動」的步驟（step）層面而非更細粒度的詞元（token）層面計算和使用熵——提供理論依據。

• 實驗設計：這個設計非常聰明。作者將所有的「步驟」根據其初始熵值進行分組（例如，熵最低的0-5%，5-10%，...）。然後，他們計算了在一輪強化學習更新之後，每個組別的步驟熵平均變化了多少。如果「低熵的步驟不需要更新」這個假設成立，那麼低熵組的熵變化應該接近於零。

• 實驗結論：圖3的結果出人意料但意義重大：即使是初始熵非常低的步驟（例如15-20%分位數），在學習更新後其熵值也發生了顯著的變化。這推翻了「自信的步驟=已經學會的步驟」這一簡單假設。它表明，一個當前看起來很確定的步驟，仍然可能不是最優的，需要進行調整。這個發現雄辯地證明了，不能簡單地只關注高熵部分，而必須像EMPG那樣，對整個熵譜的步驟都進行動態調變，這正是EMPG在「步驟層面」進行設計的根本原因。

本文題目：Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

破除大型語言模型強化學習訓練中的「熵」詛咒，讓模型學會穩定成長！

分享短網址