清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!

圖片

原以為是請了位博士後進行科研創新,結果發現只是僱了個考試高手瘋狂刷題,把本來就會的知識刷得更熟練而已。(發表於2025年5月16日,由清華大學LEAP實驗室、上海交通大學合作發表)

第一階段:核心概念識別

論文的動機分析

目前,AI社群普遍認為,使用強化學習與可驗證獎勵(RLVR)是提升大型語言模型(LLM)在數學、程式設計等複雜推論任務上表現的王牌技術。大家普遍相信,就像傳統的強化學習(例如AlphaGo)能讓智能體在探索中發現全新、超越人類的策略一樣,RLVR也能讓LLM「自我演化」,學會那些在其原始(Base)模型中根本不存在的、全新的推論能力。

然而,本文作者對此提出了一個尖銳的質疑:強化學習真的在激勵LLM發展出超越其基礎模型的新推論能力嗎? 還是說,它僅僅是讓模型更有效率地「利用」了那些已經「隱藏」在基礎模型裡的能力?換句話說,RLVR是在「創造新知識」還是在「最佳化已有知識的檢索效率」?這個問題至關重要,因為它直接關係到我們對LLM能力邊界和未來發展路徑的判斷。作者的動機就是要透過嚴謹的實驗,撥開RLVR成功的表象,探究其背後的真實作用機制。

論文主要貢獻點分析

列出論文聲稱的主要創新點

揭示了當前RLVR的根本局限性:論文透過大量實驗證明,當前主流的RLVR方法並沒有為LLM帶來根本性的新推論模式。經過RL訓練的模型,其推論能力的邊界(上限)實際上是被其對應的基礎模型(Base Model)所限制的,甚至在訓練後這個邊界還會收縮。

提出並系統應用了一種更準確的評估典範:論文指出,傳統的評估指標(如pass@1,即單次嘗試的成功率)只能反映模型的「平均表現」,無法衡量其「能力上限」。作者系統性地使用pass@k(在k次嘗試中至少有一次成功的機率)作為核心評估指標,特別是當k值很大時,它能更準確地探測模型的推論能力「天花板」。

證實了RLVR的核心作用是提升採樣效率:論文發現,RL訓練後的模型之所以在常規測試中表現更好,不是因為它學會了解決新問題,而是因為它能更大概率地、更快速地(在更少的嘗試次數內)生成那些基礎模型本來就能生成的正確答案。這本質上是一種分佈上的「提純」或「聚焦」,而非能力的「擴張」。

區分了RLVR與蒸餾(Distillation)的本質不同:透過對比實驗,論文發現知識蒸餾(從一個更強的教師模型學習)可以真正地為學生模型引入新的推論模式,從而擴展其能力邊界。這反過來凸顯了當前RLVR方法的局限性。

找出支持這些創新的關鍵技術或方法

核心評估方法pass@k(k值很大時):這是整篇論文的「顯微鏡」。透過對比Base模型和RL模型在不同k值下的pass@k曲線,作者才得以觀察到「RL模型在小k值領先,但在大k值被Base模型反超」這一關鍵現象。

困惑度(Perplexity)分析:為了解釋「為什麼推論路徑已經存在」,作者計算了Base模型對於RL模型生成的正確答案的困惑度。結果發現困惑度很低,說明這些「新」答案對於Base模型來說一點也不「意外」,完全在它的生成分佈之內。

可解問題集覆蓋度分析:這是一種直接的集合論證。作者直接比較了Base模型能解決的問題集合和RL模型能解決的問題集合,發現後者幾乎是前者的一個子集,直觀地證明了RL模型沒有解決新問題。

全面的實驗設計:橫跨多個模型家族(Qwen, LLaMA)、多種任務(數學、程式碼、視覺推論)和多種RL演算法(PPO, GRPO等)的實驗,極大地增強了結論的普適性和說服力。

論文有哪些顯著性的結果 最顯著的結果無疑是pass@k曲線的交叉現象(見論文圖2)。RL訓練後的模型曲線在圖的左側(k較小)位於上方,表現更優;但隨著k增大,Base模型的曲線以更陡峭的斜率追趕上來,並最終在圖的右側(k較大)反超RL模型。這個「交叉」清晰地、視覺化地展示了RL模型「起跑快但後勁不足」,而Base模型「潛力大但需多加嘗試」。這個結果極具顛覆性,因為它挑戰了「RL訓練總是有益無害」的直覺。

理解難點識別

分析哪些概念/方法是理解論文的關鍵

pass@k 指標的深層含義:理解為什麼pass@1 代表「平均性能」而大的k值的pass@k 代表「能力邊界」是關鍵。

RLVR與傳統RL的異同:需要理解為什麼在Atari遊戲中能不斷探索新策略的RL,在LLM這裡卻似乎「失效」了。這涉及到對LLM預訓練先驗(Priors)和巨大動作空間的理解。

「能力邊界收縮」現象:直覺上,訓練應該讓模型變強,為什麼能力邊界反而會變窄?這需要結合RL演算法的目標函數(最大化獎勵樣本的似然)來理解。

找出這些概念中最具挑戰性的部分 最具挑戰性的部分是pass@k曲線的交叉,推導出「RLVR限制了模型能力上限」的結論。這需要讀者轉變思維,不能僅僅把pass@k看作一個性能分數,而要把它理解為對模型「潛在知識庫」的一次「探測」。當k足夠大時,pass@k的值近似於模型能夠解決的問題的比例,即其「能力覆蓋範圍」。

確定需要重點解釋的核心概念 最需要深入解釋的核心概念是:pass@k作為能力邊界探測器的工作原理,以及它如何揭示RLVR的「採樣效率提升 vs. 能力邊界收縮」這一對矛盾效應

概念依賴關係

切入點:pass@k指標。這是所有分析的基礎,是度量尺。

核心論證:基於pass@k,對比Base模型和RL模型的曲線,引出「交叉」現象。

現象解讀:解釋為什麼會交叉。小k值時RL模型勝出,說明採樣效率提升;大k值時Base模型勝出,說明能力邊界更廣(甚至RL模型發生了邊界收縮)。

原因探究:為什麼會這樣?引入困惑度分析可解問題集分析,證明RL模型生成的解法都源於Base模型。

深化理解:透過與蒸餾的對比,以及對不同RL演算法的分析,來鞏固和泛化這個結論。

第二階段:核心概念深入解釋

設計生活化比喻:圖書館尋書奇遇

想像一下,有一位非常博學的學者(我們的Base模型),他畢生所學都儲存在一個巨大無比的私人圖書館裡。這個圖書館藏書極其豐富,從主流的教科書到偏門的古籍手稿應有盡有,幾乎涵蓋了所有問題的解法。

然而,這位學者有個小毛病:他有點不拘小節,圖書館裡的書擺放得有些雜亂。當你向他請教一個複雜問題時(比如一個奧數題),他會走進圖書館,隨機從書架上抽一本書給你。

第一次就抽到正確解法的機率可能不高(這對應模型的pass@1)。

但是,如果你給他足夠多的嘗試機會(比如讓他抽1000次,即pass@1024),只要圖書館裡確實存在解法,他總能把那本正確的書找出來。這個圖書館的藏書量,就代表了這位學者的知識邊界能力上限

現在,來了一位應試教育專家,要對這位學者進行「強化學習特訓」(即RLVR訓練),目標是讓他能更快地回答問題。專家的做法是:

拿出大量標準考題讓學者練習。

學者每次從圖書館找一本書作答。

如果答案正確(獲得獎勵),專家就讓學者在這本書上貼一個大大的「重點」標籤,並把它放到最顯眼的書架上。

如果答案錯誤,專家就讓學者把這本書塞到角落裡。

經過一番特訓,學者(現在是RL訓練後的模型)發生了變化。當你再問他問題時,他會優先從貼滿「重點」標籤的書架上找書。

建立比喻與實際技術的對應關係

比喻中的元素:博學的學者

實際技術概念:Base Model (基礎模型)

解釋:預訓練後的LLM,擁有龐大但未經整理的知識。

比喻中的元素:巨大的私人圖書館

實際技術概念:Base模型的知識/能力空間

解釋:模型參數中蘊含的所有可能的推論路徑集合。

比喻中的元素:圖書館的藏書量

實際技術概念:Base模型的能力邊界/上限

解釋:模型理論上能夠解決的所有問題的集合。

比喻中的元素:向學者提問

實際技術概念:輸入一個推論任務 (prompt)

解釋:給模型一個數學題、程式設計題等。

比喻中的元素:學者第一次抽書

實際技術概念:模型進行一次採樣生成 (pass@1)

解釋:模型生成一個答案,看是否正確。

比喻中的元素:給學者k次抽書機會

實際技術概念:進行k次採樣 (pass@k)

解釋:衡量在k次嘗試內,模型能否解決問題。

比喻中的元素:找到正確的書

實際技術概念:生成了正確的推論路徑和答案

解釋:模型輸出的Chain-of-Thought (CoT) 是有效的。

比喻中的元素:應試特訓 (RLVR)

實際技術概念:Reinforcement Learning from Verifiable Rewards

解釋:用帶標籤的數據(對/錯)對模型進行微調。

比喻中的元素:「重點」標籤和顯眼書架

實際技術概念:RL演算法對機率分佈的調整

解釋:RL增加了正確推論路徑的生成機率,降低了錯誤路徑的機率。

比喻中的元素:特訓後的學者

實際技術概念:RL-trained Model (RL訓練後的模型)

解釋:經過RLVR微調後的LLM。

深入技術細節

現在我們把比喻和論文中的關鍵技術聯繫起來。

核心評估指標:pass@k

pass@k 的意思是「在k次獨立嘗試中,至少有一次成功的機率」。

當 k=1 時,它就是單次成功率。在我們的比喻裡,就是特訓後的學者第一次就從「重點」書架上拿到正確答案的機率。由於特訓,這個機率很高

當 k 很大時(比如 1024),它衡量的是「只要給夠機會,能不能解決問題」。這就像允許學者把他整個圖書館翻個底朝天來找答案。此時,比拼的不再是「找得快不快」,而是「圖書館裡到底有沒有這本書」。

這就是論文中pass@k 曲線交叉現象的本質:

左側 (k較小):特訓後的學者(RL模型)因為有「重點」書架,找答案又快又準,所以pass@k值更高。

右側 (k較大):當允許無限次嘗試時,未經特訓的學者(Base模型)雖然找得慢,但他那未經整理的、更龐大的圖書館裡可能藏著一些特訓學者在「應試教育」中忽略掉的、更冷門但同樣正確的解法。因此,他的能力上限(總藏書量)反而更大,pass@k曲線最終會反超。

關鍵分析:採樣效率差距 (Sampling Efficiency Gap)

論文中定義了一個有趣的指標來量化這種差異:

原始數學形式:

(在論文中,作者通常取 k=256)

採樣效率差距 = RL模型單次嘗試的成功率 - 基礎模型在k次嘗試內的最高成功率

與比喻的映射: 這個公式在衡量:「特訓後的學者第一次就答對的本事,比那個未經特訓的學者把整個圖書館翻個底朝天後能解決問題的總量,還差多少?

作者發現這個值始終很大且為負(因為pass@1(RL) 遠小於pass@k(Base)),說明RL訓練遠未充分發掘出基礎模型已有的潛力。它只是讓模型從一個「知識淵博但反應慢的學者」變成了一個「有效率但知識面變窄的應試高手」。

RL模型單次嘗試的成功率:特訓學者的「應試高分能力」。

基礎模型在k次嘗試內的最高成功率:未經特訓學者的「知識淵博程度」(圖書館藏書量)。

將技術細節與比喻相互映射

技術:RL演算法最大化獎勵樣本的對數似然。

比喻體現:這正是「給正確的書貼重點標籤,放到顯眼位置」的過程。演算法的目標就是讓模型更傾向於生成那些被驗證為「好」的路徑。

技術:pass@k曲線在k增大時,Base模型反超RL模型。

比喻體現:特訓後的學者(RL模型)過於依賴「重點」書架,對於需要從非重點區域尋找冷門解法的問題,他可能就找不到了。而Base模型雖然慢,但他的圖書館是完整的,只要給夠時間,總能找到。

技術:RL模型生成解法的困惑度在Base模型下很低。

比喻體現:特訓學者找到的那些「重點」書籍,其實本來就存在於未經特訓學者的圖書館裡。對於未經特訓的學者來說,看到這些書一點也不「困惑」或「驚訝」,因為「我這兒本來就有」。這證明了RL沒有創造新知識。

比喻的局限性 這個比喻非常貼切,但有一個細微的差別。在比喻中,特訓過程似乎只是「移動和標記」書籍,而沒有「丟棄」書籍。在實際的RL訓練中,由於模型機率分佈的調整,某些推論路徑的生成機率可能會被壓低到接近於零,以至於在有限的採樣次數內(即使k很大)也無法生成。這可以理解為特訓專家不僅標記了重點,還把一些「非考點」的書打包扔進了地下室,導致特訓學者的知識庫真的變小了。這就是論文中提到的「能力邊界收縮」。

總結

透過「圖書館尋書」這個比喻,我們可以清晰地理解論文的核心觀點:

基礎模型 (Base Model) 就像一個知識淵博但雜亂的圖書館,潛力巨大但效率不高。

強化學習 (RLVR) 像一場應試特訓,它透過給「考點」書籍貼上「重點」標籤並前置,極大地提高了找答案的效率 (pass@1提升)

然而,這種特訓的代價是,模型可能會過度依賴這些「重點」,而忽略了圖書館其他角落裡同樣有價值的書籍,導致其知識的廣度 (pass@k at large k) 受限甚至收縮

最終,RLVR並沒有教給學者圖書館裡原本沒有的新知識,只是讓他變成了一個更有效率的「圖書管理員」,而不是一個更博學的思想家。

第三階段:詳細流程步驟

引言

在這一階段,我們將詳細拆解論文作者是如何設計其實驗流程來一步步驗證其核心假設的。這個流程本身就是論文的一個重要貢獻,因為它為後續研究提供了一套嚴謹的分析典範。我們可以將整個流程看作一個「LLM推論能力邊界探測器」。

輸入

一個待評估的LLM家族(例如 Qwen-2.5 系列)。

這個家族中的兩個關鍵模型:

基礎模型 (Base Model):例如Qwen-2.5-7B-Base

RLVR訓練後的模型 (RL-trained Model):例如在GSM8K 資料集上用GRPO 演算法訓練後的Qwen-2.5-7B

一個帶有可驗證答案的評估資料集(例如AIME24 數學競賽題集)。

一個固定的問題模板 (Prompt),確保對兩個模型的提問方式完全一致。

處理流程

步驟一:大規模採樣生成 (Data Generation)

對基礎模型進行採樣

遍歷評估資料集中的每一個問題。

對於每一個問題,使用統一的Prompt輸入給基礎模型

設定一個較高的溫度(temperature, e.g., 0.6)和top-p(e.g., 0.95)以鼓勵生成多樣化的答案,然後讓模型獨立生成n 個候選答案(n 是一個很大的數,比如1024或2048)。

將這n 個生成的答案(包含完整的推論過程和最終結果)儲存起來,與對應的問題ID關聯。

對RL模型進行採樣

重複上述過程,但這次使用的是RL訓練後的模型

對於評估資料集中的同一個問題,使用完全相同的Prompt和採樣參數,同樣生成n 個候選答案,並儲存。

步驟二:自動化驗證與結果統計 (Verification & Statistics)

建立驗證器 (Verifier)

根據任務類型,設計一個能自動判斷答案對錯的程式。

對於數學題,驗證器會從模型的生成文字中抽取最終答案(例如,oxed{73} 中的「73」),並與標準答案進行比較。

對於程式設計題,驗證器會執行生成的程式碼,並用預設的單元測試(Unit Tests)來檢查其正確性。

批量驗證

對於上一步生成的每一組答案(例如,某個問題來自Base模型的1024個答案),讓驗證器逐一檢查。

統計其中正確的答案數量,記為c

步驟三:計算並繪製pass@k曲線 (Calculation & Plotting)

計算pass@k

對於從1到n的每一個整數k,使用一個無偏估計公式來計算pass@k的值。論文中使用的公式是:1 - ((N-C)/N)^k。其中 N 是總樣本數,C 是正確樣本數。這個公式的直觀含義是「1減去k次嘗試全部失敗的機率」。

平均與繪圖

對整個評估資料集中的所有問題,計算出pass@k的平均值。

這樣,我們就得到了兩條曲線:一條是Base模型的平均pass@k曲線,另一條是RL模型的平均pass@k曲線

將這兩條曲線繪製在同一個圖表中,橫軸為k(通常使用對數座標),縱軸為pass@k

步驟四:深度分析與原因探究 (In-depth Analysis)

可解問題覆蓋度分析 (Solvable Problem Coverage)

對於Base模型,找出所有pass@n > 0的問題,形成集合A。

對於RL模型,找出所有pass@n > 0的問題,形成集合B。

比較這兩個集合,看B是否是A的一個子集(B ⊆ A)。論文發現它們驚人地接近子集關係(見表4和表5),這意味著RL模型能解決的問題,Base模型幾乎也都能解決。

困惑度分析 (Perplexity Analysis)

從RL模型生成的正確答案中,隨機抽取一些樣本(記為R_correct)。

然後,將這些R_correct輸入到Base模型中,計算Base模型生成這些答案的困惑度(P_Base(R_correct))。

作者發現這個困惑度值非常低(見圖6),說明Base模型認為這些來自RL模型的正確答案是「意料之中」的,完全符合它自身的生成習慣。這證明了RL沒有創造新知識。

案例分析 (Case Study)

從那些只有Base模型能解決(或需要很多次嘗試才能解決)的難題中,人工挑選出一些成功的推論樣本(見圖19和圖20)。

這可以直觀地向讀者展示,Base模型確實具備解決複雜問題的內在潛力,並非隨機猜測。

最終輸出

一篇完整的分析報告,包含pass@k對比圖、覆蓋度表格、困惑度圖表和具體的案例,共同構成一個強有力的證據鏈,最終得出結論:當前RLVR方法主要作用是提升採樣效率,而非拓展推論能力的邊界,其能力上限受限於基礎模型。 透過這個詳盡的流程,一個沒有看過論文的研究者也能夠理解作者是如何系統地、層層遞進地驗證他們的核心觀點的,並且有能力去複現這個研究典範。

第四階段:實驗設計與驗證分析

主實驗設計解讀:核心論點的驗證

核心主張

論文的核心主張是:強化學習與可驗證獎勵(RLVR)並沒有創造出新的推論能力,而是最佳化了對基礎模型(Base Model)中已有推論路徑的採樣效率,並且這個過程可能導致模型推論能力的「天花板」降低。

主實驗設計

主實驗的設計非常直接且巧妙,其核心就是對比Base模型RL訓練後模型在不同採樣次數k下的pass@k 表現。

如何驗證主張:如果RLVR是創造新能力,那麼RL模型的pass@k曲線應該在所有k值上都高於或等於Base模型,尤其是在k很大時,代表其能力邊界更廣。反之,如果論文的主張成立,我們會觀察到:

在k較小(如k=1)時,RL模型的曲線在上方(採樣效率高)。

隨著k增大,Base模型的曲線會追上甚至反超RL模型(能力邊界更廣)。 這個「交叉點」的出現,就是支持其核心論點的最關鍵證據。

實驗選擇的合理性分析

資料集 (Datasets):作者選擇了多個領域的標準Benchmark,如:

數學推論GSM8K, MATH500, AIME24, Olympiad等。這些資料集難度遞增,涵蓋了從小學應用題到競賽級難題的範圍。

程式碼生成LiveCodeBench, HumanEval+

視覺推論MathVista, MathVision

合理性:這些選擇非常合理。首先,它們都是可驗證的,即有明確的正確答案或測試用例,這對於計算獎勵和pass@k至關重要。其次,多樣性強,橫跨數學、程式碼、多模態等多個需要複雜推論的領域,證明了結論的普適性,而不僅僅是某個特定任務上的巧合。

評估指標 (Evaluation Metrics)

核心指標是pass@k

合理性:這是整篇論文的靈魂。如果只用pass@1(平均準確率),作者只會得出「RLVR有效提升了模型性能」這一膚淺結論,無法揭示深層問題。pass@k(特別是大的k值)能夠探測模型的潛能和能力邊界,是衡量「模型到底會不會」而非「模型第一次是否答對」的理想工具。這個指標的選擇與論文要探究的核心問題完美契合。

基準方法 (Baselines)

最核心的基準是模型自身的基本版本 (Base Model)

合理性:這構成了最公平、最直接的「自身對比」。任何提升都應該在這個基礎上實現。此外,在分析不同RL演算法時,作者也互相比較了PPO、GRPO等多種RL方法,證明了這不是某個特定演算法的問題,而是RLVR這一典範的問題。

主實驗結論

論文圖2、圖4等主實驗結果清晰地展示了pass@k曲線的交叉現象。在所有測試的模型、資料集和任務上,RL模型在小k值時表現優異,但隨著k增大,其性能曲線趨於平緩,最終被持續攀升的Base模型曲線超越。這雄辯地證明了:RLVR提升了模型的「平均表現」,卻犧牲了其「潛力上限」。

消融實驗分析:內部元件的貢獻

消融點1:不同的RL演算法 (圖8)

目的:證明「能力邊界收縮」現象不是某個特定RL演算法(如GRPO)的問題,而是RLVR典範的通病。

設計:作者使用同一Base模型,分別用PPO, GRPO, Reinforce++, RLOO等多種主流RL演算法進行訓練,然後比較它們的pass@k曲線。

結論:所有RL演算法訓練出的模型都表現出類似的pass@k交叉現象,且它們與Base模型的能力上限差距(用「採樣效率差距」或相關指標衡量)都很大。這證明了問題在於典範本身,而非具體實現。

消融點2:RL訓練的進程 (圖1右側)

目的:探究隨著RL訓練的進行,能力邊界是如何變化的。

設計:作者取了RL訓練過程中的不同時間點(checkpoint,如step 150, 300, 450)的模型來進行pass@k評估。

結論:實驗結果驚人地發現,隨著訓練步數增加,模型的pass@1(平均性能)確實穩步提升,但其pass@256(能力邊界)卻在持續下降。這定量地證明了「RL訓練過程伴隨著能力邊界的收縮」,為核心論點提供了動態演化上的證據。

消融點3:關鍵超參數(KL散度約束、Rollout數量)(圖15)

目的:檢驗一些常見的RL訓練技巧是否能緩解這個問題。

設計

添加KL散度懲罰項,以防止RL模型偏離Base模型太遠。

增加每個prompt的Rollout數量(從8增至32),以進行更廣泛的探索。

結論:添加KL約束後,pass@1相似,但能力邊界 (pass@128) 下降得更厲害,說明強行限制模型探索並不能解決問題。增加Rollout數量雖然略微提升了高k值的pass@k,但仍遠低於Base模型。這證明了簡單的調參和增加探索並不能從根本上扭轉局面。

深度/創新性實驗剖析:洞察方法的內在特性

探究性實驗1:困惑度分析 (Perplexity Analysis, 圖6)

實驗目的:驗證「RL模型生成的正確推論路徑是否早已存在於Base模型的知識庫中」。

巧妙設計:這個實驗的設計思路非常新穎。它沒有直接去搜索,而是反過來問:對於一個由RL模型生成的正確答案R_correct,Base模型看到它時會有「多驚訝」?「驚訝程度」就用困惑度(Perplexity)來衡量。如果Base模型覺得這個答案很「順理成章」(低困惑度),就說明這個答案本來就在它的生成分佈之內。

實驗結論:結果顯示,困惑度的值非常低,幾乎和Base模型自己生成高頻答案的困惑度一樣。這個結論極具說服力地證明了:RL模型並沒有「發明」新的解題思路,它只是學會了更頻繁地「重複」那些Base模型本來就知道、且比較傾向於生成的思路。

探究性實驗2:可解問題覆蓋度分析 (表4 & 5)

實驗目的:從集合論的角度,直接驗證RL模型解決問題的能力範圍是否被Base模型所「包含」。

巧妙設計:設計非常直接。透過大規模採樣,分別確定兩個模型能夠解決的問題集合(只要pass@k>0就算可解),然後比較這兩個集合的關係。

實驗結論:RL模型能解決的問題集合幾乎是Base模型能解決問題集合的一個真子集。這提供了最直觀的證據,表明RL模型沒有學會解決任何Base模型完全不會的新問題。

探究性實驗3:與知識蒸餾的對比 (圖7)

實驗目的:回答一個潛在的質疑:「是不是所有在Base模型上的後訓練(post-training)都會導致能力邊界收縮?」

巧妙設計:作者引入了一個重要的控制組——知識蒸餾。他們將一個更強大的模型(Teacher)的輸出(長CoT推論)提煉到一個較弱的模型(Student)上,然後評估這個被「蒸餾」過的學生的pass@k曲線。

實驗結論:蒸餾後的模型,其pass@k曲線全程高於其Base模型,意味著它的能力邊界被真正地擴展了。這個對比實驗非常關鍵,它成功地將問題歸因於RLVR這一特定典範,而不是泛化的「後訓練」過程,極大地增強了論文論點的嚴謹性。

探究性實驗4:案例研究 (圖19 & 20)

實驗目的:提供具體、可感知的證據,證明Base模型確實擁有解決複雜問題的能力,而不是靠「隨機猜測」碰巧蒙對。

巧妙設計:作者從最難的AIME24競賽題中,展示了Base模型經過多次採樣後生成的、邏輯清晰且正確的完整推論過程。

實驗結論:這些案例讓人信服,Base模型內部確實蘊含著強大、連貫的推論能力。這使得pass@k曲線的上升不再是抽象的統計數字,而是有實實在在的複雜推論能力在背後支撐的。

本文題目:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

主標籤:人工智慧

次標籤:大型語言模型AI推論機器學習研究強化學習


上一篇:清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務

下一篇:強化學習(RL)規模化王牌!DeepSWE 開源 AI 代理登上榜首,訓練方法與權重全面公開

分享短網址