破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!

圖像

❝ 一句話概括,論文認為大型語言模型(LLM)智能體犯錯不全是它的問題,更是學習演算法的問題,於是設計了一套「熵調變」的功勞分配新方法,讓正確的決策得到應有的「放大」獎勵,錯誤的決策受到加倍懲罰。(原論文題目見文末,點擊閱讀原文可直接跳轉至原文連結,Published on arxiv on 11 Sep 2025, by ByteDance)

第一階段:識別核心概念

論文的動機分析

想像一下,您正在教一個機器人完成一項複雜的任務,例如「線上預訂一張從北京到上海、特定日期的最便宜機票」。這項任務包含許多步驟:打開瀏覽器、搜尋航空公司網站、輸入出發地和目的地、選擇日期、比較價格、填寫個人資訊,最後點擊支付。

傳統的訓練方法(強化學習)存在一個巨大的問題:只有當機器人最終成功買到票時,您才會給它一個「做得好」的獎勵。如果它在任何一步失敗了,例如點錯日期或網站載入失敗,它最終得到的都是一個「失敗」的懲罰。

這種「成王敗寇」式的獎勵機制非常低效。機器人可能在前面9步都做得非常完美,只是最後一步出錯了,但它會認為所有10個步驟都是錯誤的。反之,它可能稀里糊塗地碰巧成功了,其中一些步驟其實非常冒險和不確定,但它會認為所有步驟都同樣正確。

這篇論文的動機就是要解決這個「粗糙的功勞分配」問題。作者們發現,標準的學習演算法(策略梯度)存在一個內在缺陷:

• 當模型對某個動作非常有信心(例如,它非常確定下一步應該點擊「搜尋」按鈕)時,學習訊號反而很弱。這意味著即使這個自信的動作是正確的,它也得不到足夠的強化,學習速度很慢。

• 當模型對某個動作非常不確定(例如,它在多個連結面前猶豫不決)時,學習訊號反而很強。如果這次不確定的探索碰巧帶來了好的結果,模型會過度強化這次「賭博」,導致學習過程非常不穩定。

作者的目標是設計一種更智能的「教練」,能夠根據模型在每一步的「信心」程度來動態調整獎勵和懲罰的力度,從而實現更高效、更穩定的學習。

論文主要貢獻點分析

• 列出論文聲稱的主要創新點

1. 識別並形式化了一個根本問題:論文首次明確指出並用數學語言證明了,在大型語言模型智能體中,策略梯度的大小與模型輸出的「熵」(可以理解為不確定性)是內在耦合的。這是一個關鍵的理論發現。

2. 提出了熵調變策略梯度(EMPG)框架:這是一個全新的學習框架,旨在解耦上述問題,實現更智能的功勞分配。

3. 引入了兩大核心技術:EMPG框架包含兩個關鍵部分:一是「自校準梯度縮放」(Self-Calibrating Gradient Scaling),二是「未來清晰度獎勵」(Future Clarity Bonus)。

• 找出支撐這些創新的關鍵技術或方法

1. 自校準梯度縮放:這項技術根據智能體在當前步驟的信心(熵)來調整學習訊號的強度。如果智能體自信且正確,就放大獎勵;如果自信但錯誤,就放大懲罰;如果不確定,就減弱學習訊號,避免學習過程被不穩定的探索行為干擾。

2. 未來清晰度獎勵:這項技術是一個額外的內在激勵。它鼓勵智能體採取那些能讓下一步變得更清晰、更不模糊的行動。這引導智能體去尋找那些更穩健、更可預測的成功路徑,而不僅僅是任何能成功的路徑。

• 論文有哪些顯著性的結果論文最顯著的結果是,他們的方法不僅僅是在數值上超越了現有的基準模型,更重要的是,它解決了基準模型遇到的「性能瓶頸」問題。實驗圖表顯示,傳統方法在訓練到一定程度後,性能就停滯不前了,好像撞到了一堵牆。而EMPG能夠幫助智能體突破這個瓶頸,持續學習和改進,最終達到一個顯著更高的性能水準。這表明EMPG從根本上改善了學習動態,而不僅僅是做了一些微小的優化。

理解難點識別

• 分析哪些概念/方法是理解論文的關鍵

1. 策略梯度(Policy Gradients):這是強化學習的基礎,理解它才能明白論文改進的是什麼。

2. 熵(Entropy):在本文中,熵是衡量模型不確定性的核心指標。理解熵的高低代表什麼至關重要。

3. 熵與梯度的耦合關係(Proposition 1):這是論文的理論基石,是理解其動機的關鍵。

4. 優勢函數(Advantage Function):這是策略梯度中的一個核心組件,EMPG的主要操作對象就是它。

• 找出這些概念中最具挑戰性的部分最核心且最具挑戰性的部分是「熵調變優勢函數」的設計,也就是論文中的公式(8)。這個公式融合了「自校準梯度縮放」和「未來清晰度獎勵」兩個部分,是整個EMPG框架的技術核心。理解這個公式如何將模型的「不確定性」轉化為具體的、可計算的獎勵調整,是理解本文的關鍵。

• 確定需要重點解釋的核心概念我們將重點解釋熵調變優勢函數(The Modulated Advantage)。因為它完美地體現了論文如何利用「熵」這個概念來智能地調整學習訊號,是所有思想的最終技術落腳點。

概念依賴關係

理解EMPG的邏輯鏈條如下:

1. 起點:標準強化學習中的「策略梯度」方法在處理長遠任務時功勞分配不均。

2. 問題根源:其學習訊號(梯度)的大小天然地與模型的「不確定性(熵)」綁定,導致學習效率低下且不穩定(理論發現)。

3. 解決方案:我們必須打破這種綁定,主動地去「調變」學習訊號。

4. 核心機制:透過設計一個新的「熵調變優勢函數」來實現。這個函數包含兩個部分:

• 根據當前步驟的熵,縮放原始的成功/失敗訊號。

• 根據下一步的熵,給予一個額外的獎勵。

5. 最終效果:實現了一個更智能、更高效、更穩定的學習過程,能夠突破性能瓶頸。

我們的切入點將是這個核心機制——熵調變優勢函數,因為它承上啟下,是理論與實踐的交匯點。

第二階段:深入解釋核心概念

設計生活化比喻:聰明的攀岩教練

想像一下,您是一位攀岩新手,正在跟著一位非常聰明的教練學習。您的目標是爬上一面複雜的岩壁(完成一個長遠任務)。

• 標準教練(傳統強化學習):這位教練只在山腳下用望遠鏡看您。只有兩種回饋:

• 您成功登頂了,他會大喊:「幹得漂亮!您做的每一步都太棒了!」

• 您中途掉下來了,他會吼道:「太糟糕了!您做的每一步都是錯的!」這種回饋顯然沒什麼用,因為它沒有告訴您到底哪一步是關鍵的,哪一步是僥倖的。

• 聰明的EMPG教練:這位教練會跟著您一起爬,並觀察您的每一個動作。他不僅關心您最終是否成功,更關心您做每一個動作時的狀態。

這個聰明的教練有兩個獨特的指導原則:

1. 基於「信心」的回饋調整:他會評估您抓每一個岩點時的「信心」。

2. 鼓勵「清晰的下一步」:他會獎勵那些讓您下一步路線更明確的動作。

這就是EMPG的核心思想。

建立比喻與實際技術的對應關係

比喻中的元素 | 對應的技術概念 | 合理性解釋

您(攀岩者) | LLM智能體 | 都是執行複雜多步任務的主體。

攀上岩壁頂端 | 任務成功(獲得正獎勵) | 代表最終的、稀疏的積極回饋。

從岩壁上掉落 | 任務失敗(獲得負獎勵) | 代表最終的、稀疏的消極回饋。

您的每一個攀爬動作(抓/踩一個岩點) | 智能體的一個「思考-行動」步驟 | 任務是由一系列離散的步驟組成的。

您對一個岩點的信心 | 模型對當前步驟的「確定性」 | 一個穩固、巨大的岩點讓您信心十足;一個濕滑、細小的岩點讓您猶豫不決。

信心的量化指標(信心越高,數值越低) | 步驟熵 (Step-level Entropy, H_t) | 低熵意味著模型非常確定,輸出的機率分佈很集中(像抓一個大岩點);高熵意味著模型很迷茫,輸出機率分散(像面對多個不確定的岩點)。

聰明的EMPG教練 | EMPG演算法 | 負責根據過程資訊來智能地調整學習訊號。

教練的指導手冊 | 熵調變優勢函數 (A_t^EMPG) | 這是EMPG演算法進行決策和回饋的核心規則。

深入技術細節

現在,我們從比喻過渡到技術本身,看看教練的「指導手冊」——熵調變優勢函數——究竟是怎麼寫的。

這個核心公式出現在論文的公式(8):

原始數學形式:

A_t^EMPG = f_H(H_t) ext{·} A_t^raw + ext{lambda} ext{·} f_H(H_{t+1})

這個公式看起來複雜,但它其實就是教練的兩個指導原則的數學表達。我們來把它翻譯一下:

符號替換版本:

一個步驟的最終得分 = (整個任務的成敗結果 × 當前步驟的信心乘數) + (一個固定權重 × 下一步的清晰度獎勵)

現在我們逐一拆解這個「教練手冊」:

• 第一部分:基於「信心」的回饋調整 (Self-Calibrating Gradient Scaling)

• A_t^raw (整個任務的成敗結果): 這是標準教練的回饋。成功登頂就是+1,掉下來就是-1

• f_H(H_t) (當前步驟的信心乘數): 這是EMPG教練的第一個法寶。它的計算方式大致是1/normalized H_t,其中H_t 是歸一化後的熵。具體來說:如果您抓一個非常穩固的岩點(低熵),這個f_H 函數的值會大於1,從而放大最終的成敗結果;反之,如果您抓一個非常猶豫的岩點(高熵),這個f_H 函數的值會小於1,從而縮小最終的成敗結果。

• 第二部分:鼓勵「清晰的下一步」 (Future Clarity Bonus)

• f_H(H_{t+1}) (下一步的清晰度獎勵): 這是教練的第二個法寶。它的計算方式和f_H(H_t) 類似,1/normalized H_{t+1},但用的是下一步的熵。如果您的當前動作讓您下一步的路線變得非常清晰、選擇非常確定(下一步是低熵),f_H 函數就會給出一個較高的獎勵值。

• lambda (一個固定權重): 這是一個超參數,用來控制這個「未來清晰度獎勵」的重要性。

將技術細節與比喻相互映射

現在,我們把教練的行為和這個公式完美地結合起來。

• 情境1:自信且正確的關鍵一步

• 攀岩動作: 您成功登頂了 (A_t^raw = +1)。途中,您做了一個非常果斷的動作,抓住了一個巨大而穩固的岩點(當前步驟低熵)。

• 教練的回饋 (公式計算): f_H(H_t) 因為低熵而大於1,所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被放大的正數。

• 教練說的話: 「太棒了!您不但成功了,而且這一步抓得又穩又準,這是您成功的關鍵!我們必須牢牢記住這個動作!」

• 效果: 極大地強化了這個「自信且正確」的行為。

• 情境2:自信但錯誤的災難一步

• 攀岩動作: 您掉下來了 (A_t^raw = -1)。原因是,您非常自信地抓向一個看起來很穩固的岩點,結果它鬆動了(當前步驟低熵,但導致了壞結果)。

• 教練的回饋 (公式計算): f_H(H_t) 因為低熵而大於1,所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被放大的負數。

• 教練說的話: 「這是個嚴重的錯誤!您太過於自信地選擇了一個錯誤的路線,這是導致失敗的直接原因。我們必須深刻反思,以後絕不能再犯!」

• 效果: 極大地懲罰了這種「盲目自信」的錯誤,也就是論文中提到的「幻覺自信」(hallucinated confidence)。

• 情境3:不確定但幸運的探索

• 攀岩動作: 您成功登頂了 (A_t^raw = +1)。但其中有一步,您面對幾個濕滑的岩點非常猶豫,最後冒險跳了一下,僥倖成功了(當前步驟高熵)。

• 教練的回饋 (公式計算): f_H(H_t) 因為高熵而小於1,所以最終得分的第一部分 f_H(H_t) · A_t^raw 是一個被縮小的正數。

• 教練說的話: 「雖然您成功了,但這一步太冒險了,運氣成分很大。我們慶祝成功,但不要把這次僥倖當成標準操作來學習。」

• 效果: 避免了對不穩定的探索行為進行過度獎勵,讓學習過程更穩定。

• 情境4:有遠見的規劃

• 攀岩動作: 您做了一個動作,這個動作本身可能有點難,但它讓您處在一個非常好的位置,下一步有幾個絕佳的、清晰的岩點可以選擇(下一步是低熵)。

• 教練的回饋 (公式計算): f_H(H_{t+1}) 因為下一步的低熵而產生一個正的獎勵值,所以最終得分加上了 lambda · f_H(H_{t+1}) 這個正向的「未來清晰度獎勵」。

• 教練說的話: 「我喜歡這一步!它不僅安全,更重要的是它為您的下一步鋪好了路,讓您接下來的路線一目了然。這才是深思熟慮的攀爬!」

• 效果: 鼓勵智能體進行規劃,尋找那些可持續、可預測的解決方案路徑。

比喻的局限性: 攀岩教練的比喻非常直觀,但它簡化了熵的計算。在實際技術中,「熵」是透過對模型輸出的所有可能詞元(token)的機率分佈進行計算得到的,是一個精確的數學量,而不僅僅是「感覺上」的信心。

總結

透過「聰明的攀岩教練」這個比喻,我們可以這樣總結EMPG的核心思想:

它不再是一個只看結果的「裁判」,而是一個深入過程的「教練」。它使用熵作為聽診器,來診斷智能體在每一步的「健康狀態」(確定性),然後透過熵調變優勢函數這個工具,開出個性化的獎懲藥方。這個藥方不僅治療當前的「病症」(透過信心乘數),還鼓勵「強身健體」(透過未來清晰度獎勵),最終培養出一個更強大、更穩健的大型語言模型智能體。

第三階段:詳細說明流程步驟

整個流程可以看作是對原始、粗糙的回饋訊號進行「精加工」的過程,最終得到精細化的、每一步都不同的學習訊號。

輸入:一批(例如16個)完整的智能體與環境的互動記錄(稱為「軌跡」)。每個軌跡都包含了一系列的「思考-行動」步驟,以及最終的任務結果(成功或失敗)。

輸出:更新後的大型語言模型智能體模型參數。

詳細流程步驟如下:

1. 步驟一:收集原始資料與計算初始回饋

• 首先,演算法會遍歷這一批16個任務的互動記錄。

• 對於每一個任務(軌跡),它會檢查最終的結果。如果任務成功,就給這個軌跡裡的所有步驟一個初始的、統一的正面「優勢值」(Advantage),例如+1。如果任務失敗,就給所有步驟一個統一的負面優勢值,例如-1

• 到目前為止,這和傳統的、粗糙的回饋方式完全一樣。我們得到的是一個對每個步驟都「一視同仁」的原始分數。

2. 步驟二:【第一次遍歷】計算每一步的「不確定性」

• 接下來,演算法會進行第一次精加工的遍歷。它會逐一檢查這16個任務中的每一個「思考-action」步驟。

• 對於一個具體的步驟,例如智能體生成了「思考:我應該點擊『下一頁』按鈕。行動:點擊『下一頁』」這樣一段文本,演算法會計算生成這段文本時的平均熵。熵是透過分析模型在生成每一個詞(token)時的機率分佈得到的。如果模型在每一步都對要生成的詞非常確定(機率高度集中),那麼這個步驟的總熵就很低;反之,如果模型很猶豫,熵就很高。

• 演算法會把所有步驟的熵值H_t 都收集起來,形成一個包含數百甚至數千個熵值的大列表。

3. 步驟三:計算「調變工具」

• 有了所有步驟的熵值列表,演算法現在要準備兩個關鍵的「調變工具」:信心乘數f_H(H_t) 和 未來清晰度獎勵f_H(H_{t+1})。

• 歸一化熵:演算法首先會對所有收集到的熵值進行「最小-最大歸一化」,將它們都縮放到01 的範圍內。這確保了無論模型的整體信心水準如何,接下來的計算都有一個統一的標尺。

• 計算信心乘數:利用歸一化後的熵,演算法為每一個步驟計算出其對應的信心乘數f_H(H_t)。根據1/normalized H_t 公式,低熵的步驟會得到一個大於1的乘數,高熵的步驟會得到一個小於1的乘數。注意,這裡的f_H 還會進行「自校準」,即保證在一整個批次中,所有信心乘數的平均值恰好為1。這防止了學習訊號被整體放大或縮小,只是在步驟之間重新分配。

• 計算未來清晰度獎勵:同樣,演算法也會為每一個步驟計算一個潛在的未來清晰度獎勵f_H(H_{t+1})。這個值將在下一步被其「前一步」使用。

4. 步驟四:【第二次遍歷】應用調變,生成精細化回饋

• 現在,演算法進行第二次,也是最關鍵的一次遍歷。它再次逐一檢查所有步驟,這次的目標是更新每個步驟的「優勢值」。

• 對於第t 個步驟的處理——演算法會執行以下三個關鍵操作:取出該步驟在第一步中得到的原始統一優勢值 (例如+1-1);找到該步驟對應的信心乘數f_H(H_t),然後將兩者相乘:f_H(H_t) · A_t^raw,現在優勢值已經被當前步驟的信心水準調整過了;接著,演算法會查看是否存在第t+1 步,如果存在,它會取出第t+1 步的未來清晰度獎勵f_H(H_{t+1}),乘以一個權重lambda,然後加到當前第t 步的優勢值上。

• 經過這個過程,原來所有步驟共享的+1-1,現在變成了每一個步驟都獨一無二的、精細化的新優勢值A_t^EMPG。這個值同時包含了對當前步驟的信心評估和對未來的規劃考量。

5. 步驟五:最終處理與模型更新

• 中心化處理:為了進一步穩定訓練過程,演算法會計算出這一整批所有步驟的A_t^EMPG 的平均值,然後從每個A_t^EMPG 中減去這個平均值。這確保了最終的優勢值有正有負,整體為零,是一種標準的變異數縮減技術。

• 執行策略更新:最後,演算法使用這些經過層層加工、精細無比的最終優勢值作為學習訊號,透過策略梯度演算法來更新LLM智能體的模型參數。擁有高正向優勢值的步驟所對應的行為會被大力鼓勵;擁有高負向優勢值的步驟所對應的行為會被強烈抑制。

至此,一次完整的EMPG訓練迭代就完成了。透過這個流程,智能體不再是盲目地根據最終成敗來學習,而是從一個能洞察過程、評估信心、並鼓勵長遠規劃的「聰明教練」那裡獲得指導。

第四階段:實驗設計與驗證分析

主實驗設計解讀:核心論點的驗證

• 核心主張:EMPG透過智能的、基於不確定性的信用分配,能夠顯著提升LLM智能體在長時序、稀疏獎勵任務上的性能,並克服現有方法的性能瓶頸。

• 實驗設計:為了驗證這一主張,作者採取了一個非常直接且有說服力的設計:將EMPG作為一個「增強模組」,直接應用在兩個當前強大的基準方法(GRPO和DAPO)之上。實驗在三個公認的、具有挑戰性的智能體任務上進行。

• 選擇的合理性分析:

• 資料集:包括WebShop(模擬線上購物網站環境,任務複雜,需要遵循指令、瀏覽網頁、提取資訊,是測試長時序決策的黃金標準)、ALFWorld(基於文本的虛擬家居環境,結合了指令遵循和常識推理,考驗智能體的理解和規劃能力)、Deep Search(多步驟的資訊檢索和整合任務,不僅測試基礎能力,還被分成了域內In-domain, ID和域外Out-of-domain, OOD兩部分,這對於檢驗方法的泛化能力至關重要)。這些選擇涵蓋了網頁導航、具身互動、資訊檢索等多種典型的智能體場景,且都是領域內的公認基準,具有足夠的挑戰性和代表性。

• 評估指標:主要指標為成功率(Success Rate)和任務得分(Score)。對於這些目標明確的任務,成功率是衡量智能體是否能完成任務的最直接、最公正的指標。

• 基準方法:對比方法為GRPO (Group Relative Policy Optimization)和DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization)。這兩個都是近期在大型語言模型強化學習領域表現出色的方法。作者沒有選擇一個弱的基準來「欺負」,而是選擇在強者的基礎上進行提升。這種「強強聯合」的設計,使得任何性能的提升都更有可能歸功於EMPG模組本身,而不是因為基準太弱。

• 主實驗結果與結論:

• 實驗結果——如表1和表2所示,在幾乎所有的任務、模型尺寸(從1.5B到32B)和基準組合上,增加了EMPG模組後,性能都獲得了一致且顯著的提升。例如,在ALFWorld上,Qwen2.5-7B模型結合DAPO的成功率從90.0%提升到91.6%;在更具挑戰性的WebShop上,成功率從79.6%提升到82.7%。

• 結論——主實驗強有力地證明了EMPG的有效性和普適性。它不是一個只能在特定條件下工作的「偏方」,而是一個可以廣泛應用於不同策略優化演算法的、可靠的性能增強器。

消融實驗分析:內部組件的貢獻

• 消融實驗設計:為了搞清楚EMPG的兩個核心組件——「梯度縮放」(Gradient Scaling)和「未來獎勵」(Future Bonus)——各自扮演了什麼角色,作者在Deep Search任務上進行了消融研究(見表2下半部分)。他們分別測試了:① 僅使用梯度縮放;② 僅使用未來獎勵;③ 兩者都使用(即完整的EMPG)。

• 各組件與創新點的對應:

• 移除「未來獎勵」,只保留「梯度縮放」,旨在驗證「根據當前步驟信心調整回饋」這一創新的有效性。

• 移除「梯度縮放」,只保留「未來獎勵」,旨在驗證「鼓勵智能體尋找清晰下一步」這一創新的有效性。

• 實驗結果與結論:

• 僅使用梯度縮放:模型性能得到了提升,尤其是在OOD(域外)任務上增益最為顯著。這表明,透過衰減不確定步驟的更新,該機制教會了模型在面對未知情況時如何更加「穩重」,從而增強了模型的泛化能力和穩健性。

• 僅使用未來獎勵:模型性能也得到了提升,尤其是在ID(域內)任務上表現出色。這說明,該機制透過獎勵可預測的路徑,幫助模型更好地學習和利用(exploit)訓練數據中的已知成功模式。

• 完整的EMPG:性能提升最大,超越了任何單一組件。

• 結論——消融實驗清晰地揭示了兩個組件的互補性。梯度縮放像一個「正規化器」,負責探索和泛化;未來獎勵像一個「加速器」,負責利用和精通。兩者結合,實現了探索與利用的精妙平衡,證明了EMPG設計的完整性和協同效應。

深度/創新性實驗剖析:洞察方法的內在特性

除了證明「我能行」和「我的零件都有用」之外,作者還設計了兩個非常巧妙的實驗,來回答「為什麼我行」以及「我的設計為什麼是這樣而不是那樣」。

• 實驗一:訓練穩定性分析 (KL Loss Dynamics, 圖2)

• 實驗目的:直觀地證明EMPG能夠提升訓練過程的穩定性,防止在訓練後期出現「策略崩潰」現象。

• 實驗設計:作者追蹤並繪製了訓練過程中KL損失的變化曲線。KL損失衡量了模型每次更新前後的策略變化幅度。一個穩定、健康的訓練過程,其KL損失應該平穩且保持在較低水準。劇烈、頻繁的尖峰則意味著模型正在進行非常激進、不穩定的更新。

• 實驗結論:圖2顯示,基準DAPO模型在訓練後期出現了劇烈的KL損失尖峰,表明其策略變得極不穩定。而EMPG增強後的模型,其KL損失曲線從始至終都非常平滑。這強有力地證明了EMPG中的「自校準梯度縮放」機制(特別是對高熵步驟的更新衰減)起到了有效的正規化作用,像一個「穩定器」,確保了智能體能夠穩健地收斂到一個高性能策略。

• 實驗二:步驟熵 vs. 詞元熵動態分析 (圖3)

• 實驗目的:為論文的一個核心設計選擇——在「思考-行動」的步驟(step)層面而非更細粒度的詞元(token)層面計算和使用熵——提供理論依據。

• 實驗設計:這個設計非常聰明。作者將所有的「步驟」根據其初始熵值進行分組(例如,熵最低的0-5%,5-10%,...)。然後,他們計算了在一輪強化學習更新之後,每個組別的步驟熵平均變化了多少。如果「低熵的步驟不需要更新」這個假設成立,那麼低熵組的熵變化應該接近於零。

• 實驗結論:圖3的結果出人意料但意義重大:即使是初始熵非常低的步驟(例如15-20%分位數),在學習更新後其熵值也發生了顯著的變化。這推翻了「自信的步驟=已經學會的步驟」這一簡單假設。它表明,一個當前看起來很確定的步驟,仍然可能不是最優的,需要進行調整。這個發現雄辯地證明了,不能簡單地只關注高熵部分,而必須像EMPG那樣,對整個熵譜的步驟都進行動態調變,這正是EMPG在「步驟層面」進行設計的根本原因。

本文題目:Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

主標籤:大型語言模型

次標籤:強化學習演算法人工智慧機器學習


上一篇:想越多,錯越多:CoT「深度思考」反成大型語言模型幻覺催化劑!

下一篇:微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵

分享短網址