清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務

介紹了一種名為「絕對零點推理器」(AZR)的新方法,它為模型提供了一種無需人工輸入即可自主演進推理技能的方法。

作者:Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*

作者單位

  • 清華大學
  • 北京通用人工智慧研究院(BIGAI)
  • 賓夕法尼亞州立大學

論文連結https://arxiv.org/abs/2505.03335

程式碼連結https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

簡介

人工智慧模型如何在沒有人類資料的情況下自我學習?

透過學習人工篩選的樣本,大型語言模型(LLM)的推理能力正在不斷提升,但這種對專家精心製作資料的依賴正成為瓶頸。隨著模型能力的提升,維護高品質訓練資料集的努力正變得難以為繼。

本文介紹了一種名為 Absolute Zero 「絕對零點推理器」(AZR)的新方法:一個統一的大型語言模型(LLM)同時擔任任務提出者(Proposer)求解者(Solver),透過與可執行環境(如Python解釋器)互動進行強化自博弈訓練。儘管完全未用人類標註資料,AZR在數學與程式設計推理任務上超越多個使用上萬標註樣本的SOTA模型。「絕對零點」範式如圖1所示:

絕對零點範式

圖 1. 絕對零點範式

監督學習依賴於人工策劃的推理軌跡進行行為複製。強化學習基於已驗證的獎勵,使代理(agent)能夠自學推理,但仍然依賴於專家定義的學習分佈和一組精心策劃的問答對,這需要領域專業知識和人工投入。相比之下,文中引入了一種新的範式——「絕對零點」,用於在沒有任何人工策劃資料的情況下訓練推理模型。設想代理應該自主地提出針對可學習性進行優化的任務,並學習如何使用統一模型來解決這些任務。代理透過與提供可驗證反饋的環境互動來學習,從而完全無需人工干預即可實現可靠且持續的自我改進。

研究動機

  • 傳統監督學習(SFT)需人工標註推理過程,不可擴展;
  • 帶可驗證獎勵的強化學習(RLVR)雖可緩解部分問題,但仍需人類提供問答分佈;
  • 大型模型能力提升後,人工設計任務對其訓練增益逐漸降低;
  • 亟需自我提出、自我解決、自我學習的範式,即絕對零點範式。

論文貢獻

  1. 提出絕對零點範式(Absolute Zero Paradigm):零資料、零外部問答、純自博弈強化學習;
  2. 實現絕對零點推理器(AZR):統一模型自舉學習多種推理任務;
  3. 使用可執行環境(程式碼執行器)作為唯一獎勵來源;
  4. 設計三種基本推理任務:歸納、演繹、溯因;
  5. 在無需任何人類資料的前提下,AZR在程式碼與數學任務中超越多個SOTA;
  6. 提出新型優勢估計器 TRR++,用於多任務強化學習。

絕對零點推理器的工作原理

AZR模型如圖2所示,採用任務創建和問題解決的連續循環,以三種核心推理模式為指導。它依賴於程式碼執行器,該執行器無需人工干預即可驗證任務、檢查解決方案並提供客觀反饋。

(1) 雙重角色:

AZR 將大型語言模型同時作為:

  • 任務提出者(Proposer):生成可學習推理任務;
  • 任務求解者(Solver):嘗試解決這些任務;

提出者和求解者由同一個模型身兼兩職。作為提出者,它會生成編碼任務,例如編寫函數或預測輸出,同時確保這些任務既不太簡單也不太難以解決。作為求解者,它會嘗試執行這些任務,透過反覆試驗來提升其推理能力。獎勵分為:提出者因創建「A」任務(中等難度)而獲得分數,而求解者則根據正確性獲得評分。

(2) 三種推理模式

任務分為三類,受邏輯推理的啟發:

演繹:根據程式碼和輸入預測輸出(例如,「當x=3 時,f(x)=x+2返回?」)。

溯因推理:推斷產生特定輸出的輸入(例如,「找到x使得f(x)=5 」)。

歸納:編寫與輸入輸出範例相匹配的程式碼(例如,「創建一個映射這些對的函數」)

目標函數旨在優化學習過程,同時考慮所提出任務的可學習性和已解決任務的準確性。

AZR 整體流程

圖2. AZR 整體流程

模組 1:推理任務三分類

每個任務形式為三元組(程式、輸入、輸出):

  1. 演繹(Deduction):給定程式和輸入,預測輸出;
  2. 溯因(Abduction):給定程式和輸出,預測輸入,使得程式應用於輸入後產生該輸出;
  3. 歸納(Induction):給定多個輸入輸出範例,歸納出生成它們的程式。

模組 2:任務獎勵機制

  • 提出任務獎勵(可學習性): 若任務太簡單或太難,則不獎勵;中等難度任務可提供最大訓練增益。
  • 求解任務獎勵(準確性): 對正確的解給予獎勵。
  • 最終獎勵: 考慮格式規範性懲罰:
    • 合法輸出,若格式正確且輸出正確。
    • 格式正確但輸出錯誤。
    • 格式錯誤。

模組 3:自博弈訓練流程

步驟如下:

  1. 初始化三類任務緩衝區(演繹、溯因、歸納);
  2. 每輪:
    • 提出新任務;
    • 用環境驗證是否合法;
    • 加入緩衝區;
    • 解決給定任務;
    • 獎勵計算 + 強化學習更新(使用 TRR++)。

強化學習採用 Task-Relative REINFORCE++(TRR++)

實驗結果

實驗設置

  • 模型:Qwen2.5系列(3B / 7B / 14B),Llama3.1-8B;
  • 資料完全無人工資料
  • 評估
    • 數學:AIME, OlympiadBench, AMC, MATH500, Minerva 等;
    • 程式設計:HumanEval+, MBPP+, LiveCodeBench 等。

主要結果

絕對零點推理器的優勢:

絕對零點推理器模型完全無需人工資料即可進行訓練,其性能甚至超越了基於數千個專家範例進行微調的模型。在HumanEval+和MBPP+等程式設計基準測試中,它創下了新的SOTA分數。

表1:絕對零點推理器在程式碼基準測試中的性能

在數學推理(AIME、AMC)中,即使僅針對程式碼任務進行訓練,它也展現出強大的跨領域泛化能力。主要發現包括:

擴展優勢:更大的基礎模型(7B→14B參數)顯示出更大的性能提升,這表明隨著模型的增長,性能會持續提升。

程式碼增強推理能力:經過AZR訓練後,在程式碼上預先訓練的模型在數學方面的表現優於通用模型,這暗示了程式設計和抽象推理之間的協同作用。

緊急計畫:與人類一樣,AZR開始在其程式碼中添加分步註釋,模仿ReAct提示等技術,這是一種未明確教授的行為。

表2:絕對零點推理器在數學基準測試中的性能

圖3: emergent 行為的定性分析

然而,也存在一些需要注意的問題。較大的模型偶爾會在推理鏈中產生較差的結果,這凸顯了安全保障措施的必要性。此外,自主系統可能會出現意想不到的行為,而且隨著任務變得越來越抽象,驗證其解決方案也會變得越來越困難。

論文總結

總體來說AZR的主要特點如下:

  1. 不需要人工資料,性能仍超SOTA
  2. 初始具編碼能力的模型提升更快
  3. 不同任務類型互補:全保留性能最好
  4. 模型逐漸出現「中間註釋計畫」行為
  5. 不同推理任務表現出不同的「認知行為」
  6. Llama模型有時出現奇怪輸出,提示安全性問題

主標籤:人工智慧

次標籤:大型語言模型程式碼生成自我監督學習強化學習


上一篇:Bengio親自戳破CoT神話!大型語言模型推論是假象,25%頂尖會議論文遭打臉

下一篇:清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!

分享短網址