整理RL推理的進展

圖片

MLNLP 社群是國內外知名的機器學習與自然語言處理社群,受眾涵蓋國內外 NLP 碩博士生、高校教師以及企業研究人員。

社群的願景是促進國內外自然語言處理、機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者的進步。

來源 | 知乎

作者|還可以

將RL推理這幾個月的進度條總結匯報一下,還有一些小小的閒聊,涉及一些重要論文的發布時間節點。

以下的匯總肯定有不足和遺漏,希望大家能夠補充和指正。

我們將這段時間大致分為 RL 推理的興起-冷靜-遭受打擊。我們可能著重於冷靜和遭受打擊的描寫!

興起

1. GRPO 的「讓RL再次偉大」

圖片

透過將結果獎勵作為回饋的判斷條件,使用基於規則(rule-based)的方法,捨棄中間過程獎勵(prm),GRPO 取得了令人興奮的成果。(綜合一些 reinforce++ 的重現、Remax、Prime 等工作來看)

隨後的相關工作是 GRPO 函數的修改:

2. DAPO 的簡單有效技巧疊加

DAPO 在 GRPO 的基礎上添加了些許四個小技巧。

Clip-Higher:

圖片

作者鼓勵更高的截斷(clip),透過解耦上下裁剪範圍,增加低機率詞元(token)的探索空間。

動態採樣(Dynamic Sample):

圖片

現有的 RL 演算法在面對準確率為 1 的提示時,往往會出現梯度消失問題。DAPO 透過動態採樣策略,過濾掉準確率為 1 和 0 的提示,確保每個批次中的提示都具有有效的梯度訊號。

詞元級別(Token-Level):

圖片

GRPO 使用樣本級別的損失,導致長響應中的詞元(token)對整體損失的貢獻較低。DAPO 引入了詞元級別的策略梯度損失。

但其實這項技術基本上大家都已經提前使用了。

過長獎勵塑形(Overlong Reward Shaping):

圖片

DAPO 提出了軟過長懲罰機制,透過長度感知的懲罰區間,逐步增加對過長響應的懲罰,從而減少獎勵雜訊並穩定訓練。

3. DR.GRPO 的函數修改

圖片

DR.GRPO 的作者透過推導,認為從策略梯度(policy-gradient)推導出 GRPO 不應有標準差(std)和。

在這裡我評價一下,雖然作者進行了一些證明,但在效果上個人重現反而帶來了下降,特別是移除標準差(Std)後。

4. GPG 的簡化操作

GPG 徹底使用基於策略(policy-based)的方法,去除了其他的 PPO 小技巧。

圖片

可以看到,這非常簡化。當然仍然離不開一些小操作,例如 GRPO 優勢值全為 0,以及標準差(std)的難度操作。

圖片

最終的效果如下圖所示,同時作者還斜體暗示了 Dr.GRPO 的操作沒有效果。

圖片

其他

研究更高效的推理(競爭十分激烈,曾有 2 天內 Arxiv 發布 10+ 篇):推理長度優化、思考或不思考(think or nothink)。

高品質樣本的篩選。

冷靜:一些研究發現 RL 推理的局限性、一些改進方法帶來的尷尬之處

(局限性)RL 推理沒有為模型帶來額外的能力

在這裡我們首先請出清華的這篇《強化學習是否真的能激勵大型語言模型(LLMs)超越基礎模型的推理能力?》(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?)

作者發現由 RLVR 訓練的模型生成的推理路徑已經以相當大的機率密度存在於基礎模型的輸出分佈中,RL 模型能解決的問題,基礎模型(Base model)也能解決,僅需要多次採樣。

並且在 Pass@k(直觀理解是給模型多次機會,至少有一次通過的機率計算)的指標下,RL 訓練的模型能力上限是低於基礎原始模型的上限。可以理解為 RL 僅僅提高了採樣效率,

圖片

我自己因為剛入門 RL 推理,面對這種現象也是很吃驚和小沮喪的,但經大家提醒才發現其實 Deepseekmath 就已經報導過這種情況(如下圖)

圖片

無論如何,到這裡將 RL 作為提高採樣效率的手段,仍然是非常有價值的。接下來的進展就有些……

(無標籤訓練)不需要外部標籤

我們按照時間順序講解一下

EMPO

EMPO 不依靠真實的黃金標準(Ground-truth),而是採用將模型的響應(responses)進行聚類分類,並且獎勵是鼓勵所有的響應都屬於一類。

模型效果如下圖所示,個人感覺其實基準線(baseline)沒有經過好好訓練,但方法有效性的目的達到了。不過,論文其實有點像最小化熵的形式了,很可惜沒有直接轉成最小化熵,不然的話現在好幾篇論文恐怕就發不出來了。

圖片

TTRL:

直播預告!從 TTS 到 TTRL:無標籤資料強化學習探索與展望

圖片

透過將 major@k 的局限性,不如 EMPO 採用分類的形式,因為在一些沒有固定答案的情況下難以實行,EMPO 卻可以,不過也差不多。

我不喜歡他強調的測試時間(test-time),因為從效果上看,其使用的計算量不如直接 major@k,我更好奇的是他在訓練集上訓練會怎麼樣?

同時更早之前 DPO 的思路就有將 major@k 用作偽正標籤的做法,但也沒有提到測試時間(test-time)。

有趣的是有一篇論文《大型推理模型可以自我訓練嗎?》(Can Large Reasoning Models Self-Train?)跟 TTRL 基本上一樣,但就是在訓練集訓練,測試集測試。不知道審稿人會如何處理真假難辨的情況……

不過到這裡就已經品出一些味道了,我們的模型似乎並不需要外部答案,他透過自己內容就可以了嗎?但在這個時間點下,局勢尚未明朗。

熵最小化(Entropy Minimization):

這篇論文研究將熵(entropy)作為目標進行訓練,它分為三種模型:

• EM-FT:最小化詞元級別的熵,但基於從模型中提取的未標記輸出(偏向 SFT)。

• EM-RL:以負熵為唯一報酬最大化的強化學習。

• EM-INF:推理時間 logit 調整以降低熵,無需任何訓練資料或參數更新。

奇怪的是作者不知道為什麼採樣的數量是 4,少了……

總結:

這幾篇論文的接連出現雖然給了筆者的 RL 推理熱情重重一擊,但仍然保持著相當的……不過接下來幾篇文章的出現確實有些難以接受了。

打擊:我們的 RL 到底學到了什麼?

單樣本

一次性 RL(One-shot-RL):

同樣也是非常出名的一篇,作者僅使用一個單一樣本多輪訓練就能取得不錯的效果,樣本的選取是以方差作為標準的。換句話說,也可以理解為選取模型熵較大的資料,來減小模型的熵。

圖片

我開始讀論文的時候,同樣吃驚,隨後想到的是會不會是格式的問題?隨後作者在一個星期後進行了相應的實驗,並添加到了最新版 Arxiv 中。

圖片

同時也可以看到熵損失(entropy loss)有很大作用。但很可惜作者沒有檢測一下只有熵會是什麼樣的情況,讓後續的工作撿到便宜了。

一次性熵最小化,僅需 10 步:

跟上一篇的思路很像,一次性(One-shot)樣本訓練 10 步,但卻是直接拿熵(entropy)做獎勵。模型效果對比圖如下,效果仍然很好(小聲說一句,感覺有點不穩定,平均值顯示的提升很多是來自 AMC,但 AMC 又太隨機了)。

圖片

值得注意的是,生成的長度也太短了吧?

圖片

同時作者探查了 logits 的分佈,熵增加了整體模型的置信度,將機率質量集中在詞元(token)的子集上。因此,原始 logits 中先前的高機率區域被擴展到長尾高機率區間。

圖片

錯誤獎勵提升模型性能:

這篇論文做得比較全面,它研究了不同獎勵:隨機獎勵、錯誤獎勵、格式獎勵、多數(major)、正確獎勵的不同效果。這篇文章出人意料地展示了隨機獎勵和錯誤獎勵的效果。

圖片

隨機獎勵和錯誤獎勵這些虛假獎勵也能提升我們模型的效果,這樣其實已經很明白了。就是簡單地提升模型本身的置信度,畢竟模型的輸出本身就是模型比較有信心的部分。

這篇論文最好的一點是基礎模型族選擇的廣泛性,乍看之下似乎打擊了 RL 推理的有效性,虛假獎勵雖然能夠提升 Qwen 或者 Llama,但是對於一些乾淨的模型 Olmo 則是沒有效果的,而我們的 RL 卻是有用的,

同時,這篇論文將所有獎勵在同一個論文作者設定下進行了實驗,免去了一些不同論文的對比。我們也能夠看出,就算是 Qwen 模型,使用正確的 RL 推理也能取得 4、5 個百分點的提升效果,相較於加強置信度而言。

總結

整體的研究發現趨勢是:借助外部答案進行探索學習 → 使用替代的外部答案探索學習 → 不需要外部答案進行探索學習 → 不進行知識學習而改變模型。

當然無論如何,主要模型本身的迭代(iteration)過程是必須的,需要自己採樣。

我們的 rollout 確實有問題(認真臉)。我們所有的 rollout 採樣都可以視為模型本身較有信心的生成輸出,然後在此基礎上進行修訂。因此,採取一些強信心手段就能取得一些效果。

但大家也不要灰心喪氣,上述很多問題的發現其實都是在簡單的數學(MATH)情境以及模型內部能力下的探索。

技術交流群邀請函

圖片

△長按新增小幫手

掃描 QR Code 新增小幫手微信

請備註:姓名-學校/公司-研究方向

(如:小張-哈工大-對話系統)

即可申請加入自然語言處理/Pytorch 等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合建構的民間學術社群,目前已發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習、自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業人員的進修、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。

圖片

主標籤:強化學習推理研究進展

次標籤:大型語言模型模型訓練機器學習自然語言處理


上一篇:OPA-DPO:多模態大型模型幻覺問題的高效解決方案

下一篇:過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型

分享短網址