AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知

您想知道的人工智慧實用資訊,第一時間送達圖片版權聲明轉自新智元,版權屬於原作者,用於學術分享,如有侵權留言刪除編輯:桃子 犀牛【導讀】數據枯竭正成為AI發展的新瓶頸!CMU團隊提出革命性方案SRT:讓LLM實現無需人類標註的自我進化!SRT初期就能迭代提升數學與推理能力,甚至性能逼近傳統強化學習的效果,揭示了其顛覆性的潛力。通往AGI最大的絆腳石,便是網際網路數據不夠用了!DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標註「標準答案」,而是透過RL實現突破困境。但問題來了——目前,LLM依然需要人類設計「正確訊號」來指導訓練。如果問題複雜到人類都不知道答案,這些AI就只能束手無策了。為此,CMU聯手獨立研究員推出一套「自獎勵訓練」(SRT)的全新方法,可謂AI「自我修行」的秘訣!圖片論文地址:https://arxiv.org/pdf/2505.21444它的核心思路是,讓LLM利用自身「內部一致性」作為內在的監督訊號,產生獎勵來優化自己。簡單來說,AI會像一個哲學家,盯著自己的答案自問自答:這個推導邏輯內部一致嗎?有沒有破綻?然後,它會根據答案「內部一致性程度」給自己評分,再用分數去不斷改進。關鍵是,SRT完全不需要人類標註的數據,可以自然地應用於「測試時訓練」。實驗結果令人耳目一新:在早期訓練階段,SRT的性能與標準答案訓練RL方法不相上下。目前,研究團隊的程式碼已公開。圖片地址:https://github.com/tajwarfahim/srt圖片自獎勵訓練:AI自我修行秘訣在沒有外部監督的情況下,模型需要依靠自身來產生監督訊號。直觀而言,如果模型能夠在其產生的多個答案中辨識出更高品質的答案,那麼這種辨識出的改進就可以作為訓練訊號。這種情況自然地發生在具有正向「產生-驗證差距」的問題中,比如數學、邏輯推理和程式碼產生任務。一種簡單但有效的方法是利用多數投票來發掘這種差距。實驗表明,這比單個模型產生的答案有更高的準確性。在本文的設置中,多數投票的步驟包括:1. 對每個提示取樣產生多個答案;2. 根據解析出的最終解決方案對答案進行分組;3. 用最常見的解決方案(眾數)來估計真實答案。圖片自進化方法SRT研究團隊提出了一種新穎的方法,把模型的自我改進過程設計成一個強化學習任務。在這個過程中,標籤並不是固定的,而是由模型不斷演變的多數投票結果動態產生的。簡單來說,就是讓模型自己「投票」選出最好的答案,並用這些答案作為指導,逐步提升自己的表現。強化學習的每一輪操作可以簡單理解為以下步驟:1. 取樣一小批提示,然後用目前模型為每個提示產生n個可能的答案。2. 透過「多數投票」的方式,找出每個提示下最常見的答案,作為臨時的「標準答案」(偽標籤)。3. 檢查每個產生答案是否與多數投票的答案一致,如果一致就給它一個獎勵(用公式表示為:r(y) = 1[answer(y) = y_majority])。4. 根據這批數據和計算出的獎勵,更新一次模型,讓它變得更聰明。具體來說,研究團隊設計了一種獎勵機制,巧妙利用模型內部一致性來定義獎勵方式。這使得他們的方法能輕鬆適配常見的強化學習演算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。另外,由於每個問題提示通常會產生16到64個答案,SRT跟其他基於標籤的演算法相比,不會增加額外的計算負擔。只要每次強化學習迭代時,多數投票都能讓模型的產生結果比驗證結果更好一點,這種反覆的自我獎勵就能持續提供有用的指導訊號,幫助模型不斷進步。雖然模型自我改進的前景令人振奮,但仍然有侷限性:模型自產生獎勵僅僅是衡量潛在正確性的代用指標。這種代用獎勵可能觸發「獎勵作弊」(reward hacking):模型為了最大化自身賦予的獎勵,會產生越來越內部一致卻可能並不正確的答案。總的來說,這項研究的貢獻有以下四點:1. 提出了一種簡單而有效的自訓練強化學習方法——自獎勵訓練(SRT)。該方法利用多個模型產生解之間的一致性來估計強化學習訓練中的正確性,在沒有標記數據的情況下提供自監督訊號。2. 透過實驗證明,在早期訓練階段,SRT的性能可不相上下使用標準答案訓練的標準強化學習方法。3. 分析了自產生獎勵的侷限性,揭示了模型的獎勵函數最初與正確性相關,但可能會退化為僅反映置信度而非真實準確性,導致獎勵作弊問題。4. 提出了緩解獎勵作弊的策略,為未來持續模型改進的方法奠定了基礎。圖片實驗結果最新提出的SRT演算法,其優勢與侷限是什麼?為此,研究人員基於Qwen2.5-Math-7B模型,展開了一系列研究,具體回答了以下四大核心問題:1. 與基於真實標記的標準強化學習方法相比,SRT演算法的有效性如何?對未見問題可以實現泛化嗎?2. 自我改進能否持續迭代進而實現性能的不斷提升?或者這種改進存在固有上限?3. 哪些底層因素會影響自我改進的有效性?4. 當SRT用於測試階段的性能提升時,實際效果如何?圖片基於多數投票的自訓練如圖2所示,在MATH和AIME訓練集上,自監督SRT方法無需真實標記訊號,即可取得與基於真實標記的強化學習不相上下的結果。值得注意的是,圖2的pass@1分數均是在保留測試集上評估的,這表明自訓練過程能穩健地泛化到訓練分佈之外。圖片然而,DAPO數據集上的結果更為複雜。具體而言,在DAPO上訓練時,研究人員發現SRT演算法在測試集上的性能,最初以與基於真實答案的標準RL相當的速度提升。但在約400-600訓練步時,SRT達到峰值性能後開始下降,而基於真實標記的標準RL訓練卻能持續提升。總體而言,研究發現了一個引人注目且出乎意料的趨勢:即使沒有任何標註樣本,SRT的性能曲線在訓練初期與基於標準答案的RL高度吻合。在統計誤差範圍內,SRT在MATH和AIME'83-AIME'23數據集上的峰值測試pass@1分數與有監督RL方法大致持平。在更具挑戰性的DAPO數據集上,SRT仍能達到RL最終性能的75%。此外,在所有三個訓練集上,SRT的峰值性能相比基礎模型都有約100%的相對提升。圖片SRT性能峰值後,異常現象分析當SRT在DAPO訓練集上達到性能峰值後(見圖2),研究人員觀察到其測試準確率開始顯著惡化。事實上,在MATH-12k數據集上訓練超過兩個epoch時,同樣會出現明顯的性能崩潰現象。對於這種行為,作者給出一個簡單而精確的理論解釋:由SRT目標定義的強化學習優化問題明確鼓勵輸出之間的一致性,而與正確性無關。因此,在該目標下的最優策略是無論輸入如何都產生完全相同的響應,進而人為地獲得最大可能的獎勵。因此,自然可以預期,在這種代理目標下的持續訓練可能導致這種退化解,特別是當優化這一目標比學習解決實際任務更容易時。圖片圖片測試時自改進自訓練的一個誘人應用,是透過測試時訓練(test-time training)提升模型準確率。將SRT作為測試時訓練技術應用異常簡單:只需將無標註測試集完全視為訓練數據集,並直接應用SRT。接下來,研究人員對比了經過SRT測試時訓練後的多數投票性能,與未進行任何測試時訓練的性能。如圖4顯示,在maj@32指標下,相比直接對基礎模型產生輸出應用主流多數投票基線,透過SRR實現的測試時訓練能帶來相對有限,但仍可察覺的性能提升。此外,在更大規模的測試數據集上,相較於基礎模型的多數投票,其性能增益更加顯著。圖片圖片為何測試時訓練不會引發性能崩潰?有趣的是,測試時訓練完成後,透過直觀檢查模型輸出可發現:儘管模型對幾乎每個測試提示的預測都退化成了單一響應(這正是SRT目標的最優解行為),但測試準確率仍維持高位。研究人員推測,測試時自訓練的穩定性源於數據集規模的關鍵差異。以AIME24測試數據集為例,其僅包含30個自改進樣本。在此有限樣本量下,模型會透過強化特定CoT推,迅速收斂至這些樣本上的穩定多數投票答案。一旦達成收斂,SRT便無法獲得有意義的梯度訊號以進一步更新參數,進而自然穩定測試時性能。圖片相比之下,在大型數據集常規訓練時,持續輸入的新樣本會不斷驅使模型為一致性進行過度優化。在此條件下,模型傾向於採取過度簡化的泛化策略(產生相同的答案),最終因輸出與提示無關的單一預測而崩潰。圖片大型模型崩潰,可以避免嗎?那麼,LLM是否可以避免崩潰?如上所述,自獎勵訓練(SRT)的優化目標,可能導致初期性能顯著提升,但最終引發模型崩潰。為此,研究人員探究了以下互補策略,以因應模型崩潰問題,進一步提升自訓練性能上限:1. 早停(Early Stopping)策略:利用少量帶標註的驗證數據集監測模型狀態,及時終止訓練以防止崩潰;2. 演算法策略:透過採用穩定的基礎模型(而非持續更新的模型)產生的偽標記,從根本上降低崩潰風險;3. 數據驅動的課程學習(Curriculum Learning)策略:突破簡單早停的侷限,透過漸進式學習機制提升模型性能。圖片早停策略實驗中,即使僅使用少量標註驗證數據,也能有效辨識自訓練過程中的性能峰值點,進而規避模型崩潰風險。如圖6所示,透過在DAPO數據集上持續監測訓練過程並在多個測試集上進行評估,作者發現一個關鍵現象:不同保留測試集上的性能峰值均出現在接近的訓練步數。此規律顯示,任何一個測試集都可用於早停決策。具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數據作為驗證集的早停效果——此時模型在所有其他評估數據集上的性能仍維持接近最優水準。圖片圖片演算法策略模型崩潰的根源在於SRT(自訓練強化學習)過度強調一致性而非正確性——即使輸出結果錯誤,模型間的一致性也會被持續強化。針對此問題,研究人員提出一種簡單有效的解決方案:從穩定的固定檢查點(而非持續更新的模型)產生偽標記。具體實施中,他們採用Qwen2.5-Math-7B基礎模型,透過多數投票機制產生偽標記,將這些離線產生的標記儲存後用於後續強化學習訓練。圖7顯示,使用此類離線標記不僅能顯著提升訓練穩定性,還能達到與SRT不相上下的模型性能。這一發現具有重要啟示:訓練過程中動態更新偽標記(線上標註)不一定能帶來顯著優勢,反而可能成為訓練不穩定的誘因。圖片圖片課程學習策略此外,研究人員提出一個關鍵假設:模型在更具挑戰性的數據集上訓練時,崩潰現象會更快出現。其內在機制在於:面對高難度數據時,模型更容易放棄預訓練知識,轉而透過優化內部一致性(而非真正學習解決任務)來獲取獎勵。基於此假設,研究人員採用課程學習,透過篩選DAPO數據集中「最簡單」的子集進行訓練。具體而言,他們保留根據以下兩個指標選出的前1/3最簡單提示樣本:1. 基礎模型通過率(需真實標記)2. 多數投票頻率(無需真實標記)圖片如圖8所示,在這些簡單子集上訓練能顯著延緩獎勵作弊現象的出現,使模型在多個訓練週期內持續提升。值得注意的是,採用課程學習策略後,模型性能最終達到了與在整個DAPO數據集上使用真實標記進行標準強化學習訓練相當的水準。這些突破性成果表明,課程學習策略有望進一步拓展SRT的效能邊界,為後續研究開闢了新的方向。

主標籤:人工智慧

次標籤:大型語言模型數學推理自我訓練強化學習


上一篇:無需人工標註!AI自生成訓練資料,靠「演繹-歸納-溯因」解鎖推理能力

下一篇:深度報導|2.5億美元估值AI筆記Granola創辦人:AI使用習慣正在重塑我們的直覺;AI的作用應是增強而非替代人類

分享短網址