介紹了一種名為「絕對零點推理器」(AZR)的新方法,它為模型提供了一種無需人工輸入即可自主演進推理技能的方法。
作者:Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*
作者單位:
- 清華大學
- 北京通用人工智慧研究院(BIGAI)
- 賓夕法尼亞州立大學
論文連結:https://arxiv.org/abs/2505.03335
程式碼連結:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
簡介
人工智慧模型如何在沒有人類資料的情況下自我學習?
透過學習人工篩選的樣本,大型語言模型(LLM)的推理能力正在不斷提升,但這種對專家精心製作資料的依賴正成為瓶頸。隨著模型能力的提升,維護高品質訓練資料集的努力正變得難以為繼。
本文介紹了一種名為 Absolute Zero 「絕對零點推理器」(AZR)的新方法:一個統一的大型語言模型(LLM)同時擔任任務提出者(Proposer)與求解者(Solver),透過與可執行環境(如Python解釋器)互動進行強化自博弈訓練。儘管完全未用人類標註資料,AZR在數學與程式設計推理任務上超越多個使用上萬標註樣本的SOTA模型。「絕對零點」範式如圖1所示:
圖 1. 絕對零點範式
監督學習依賴於人工策劃的推理軌跡進行行為複製。強化學習基於已驗證的獎勵,使代理(agent)能夠自學推理,但仍然依賴於專家定義的學習分佈和一組精心策劃的問答對,這需要領域專業知識和人工投入。相比之下,文中引入了一種新的範式——「絕對零點」,用於在沒有任何人工策劃資料的情況下訓練推理模型。設想代理應該自主地提出針對可學習性進行優化的任務,並學習如何使用統一模型來解決這些任務。代理透過與提供可驗證反饋的環境互動來學習,從而完全無需人工干預即可實現可靠且持續的自我改進。
研究動機
- 傳統監督學習(SFT)需人工標註推理過程,不可擴展;
- 帶可驗證獎勵的強化學習(RLVR)雖可緩解部分問題,但仍需人類提供問答分佈;
- 大型模型能力提升後,人工設計任務對其訓練增益逐漸降低;
- 亟需自我提出、自我解決、自我學習的範式,即絕對零點範式。
論文貢獻
- 提出絕對零點範式(Absolute Zero Paradigm):零資料、零外部問答、純自博弈強化學習;
- 實現絕對零點推理器(AZR):統一模型自舉學習多種推理任務;
- 使用可執行環境(程式碼執行器)作為唯一獎勵來源;
- 設計三種基本推理任務:歸納、演繹、溯因;
- 在無需任何人類資料的前提下,AZR在程式碼與數學任務中超越多個SOTA;
- 提出新型優勢估計器 TRR++,用於多任務強化學習。
絕對零點推理器的工作原理
AZR模型如圖2所示,採用任務創建和問題解決的連續循環,以三種核心推理模式為指導。它依賴於程式碼執行器,該執行器無需人工干預即可驗證任務、檢查解決方案並提供客觀反饋。
(1) 雙重角色:
AZR 將大型語言模型同時作為:
- 任務提出者(Proposer):生成可學習推理任務;
- 任務求解者(Solver):嘗試解決這些任務;
提出者和求解者由同一個模型身兼兩職。作為提出者,它會生成編碼任務,例如編寫函數或預測輸出,同時確保這些任務既不太簡單也不太難以解決。作為求解者,它會嘗試執行這些任務,透過反覆試驗來提升其推理能力。獎勵分為:提出者因創建「A」任務(中等難度)而獲得分數,而求解者則根據正確性獲得評分。
(2) 三種推理模式
任務分為三類,受邏輯推理的啟發:
演繹:根據程式碼和輸入預測輸出(例如,「當x=3 時,f(x)=x+2返回?」)。
溯因推理:推斷產生特定輸出的輸入(例如,「找到x使得f(x)=5 」)。
歸納:編寫與輸入輸出範例相匹配的程式碼(例如,「創建一個映射這些對的函數」)
目標函數旨在優化學習過程,同時考慮所提出任務的可學習性和已解決任務的準確性。
圖2. AZR 整體流程
模組 1:推理任務三分類
每個任務形式為三元組(程式、輸入、輸出):
- 演繹(Deduction):給定程式和輸入,預測輸出;
- 溯因(Abduction):給定程式和輸出,預測輸入,使得程式應用於輸入後產生該輸出;
- 歸納(Induction):給定多個輸入輸出範例,歸納出生成它們的程式。
模組 2:任務獎勵機制
- 提出任務獎勵(可學習性): 若任務太簡單或太難,則不獎勵;中等難度任務可提供最大訓練增益。
- 求解任務獎勵(準確性): 對正確的解給予獎勵。
- 最終獎勵: 考慮格式規範性懲罰:
- 合法輸出,若格式正確且輸出正確。
- 格式正確但輸出錯誤。
- 格式錯誤。
模組 3:自博弈訓練流程
步驟如下:
- 初始化三類任務緩衝區(演繹、溯因、歸納);
- 每輪:
- 提出新任務;
- 用環境驗證是否合法;
- 加入緩衝區;
- 解決給定任務;
- 獎勵計算 + 強化學習更新(使用 TRR++)。
強化學習採用 Task-Relative REINFORCE++(TRR++)。
實驗結果
實驗設置
- 模型:Qwen2.5系列(3B / 7B / 14B),Llama3.1-8B;
- 資料:完全無人工資料;
- 評估:
- 數學:AIME, OlympiadBench, AMC, MATH500, Minerva 等;
- 程式設計:HumanEval+, MBPP+, LiveCodeBench 等。
主要結果
絕對零點推理器的優勢:
絕對零點推理器模型完全無需人工資料即可進行訓練,其性能甚至超越了基於數千個專家範例進行微調的模型。在HumanEval+和MBPP+等程式設計基準測試中,它創下了新的SOTA分數。
在數學推理(AIME、AMC)中,即使僅針對程式碼任務進行訓練,它也展現出強大的跨領域泛化能力。主要發現包括:
擴展優勢:更大的基礎模型(7B→14B參數)顯示出更大的性能提升,這表明隨著模型的增長,性能會持續提升。
程式碼增強推理能力:經過AZR訓練後,在程式碼上預先訓練的模型在數學方面的表現優於通用模型,這暗示了程式設計和抽象推理之間的協同作用。
緊急計畫:與人類一樣,AZR開始在其程式碼中添加分步註釋,模仿ReAct提示等技術,這是一種未明確教授的行為。
然而,也存在一些需要注意的問題。較大的模型偶爾會在推理鏈中產生較差的結果,這凸顯了安全保障措施的必要性。此外,自主系統可能會出現意想不到的行為,而且隨著任務變得越來越抽象,驗證其解決方案也會變得越來越困難。
論文總結
總體來說AZR的主要特點如下:
- 不需要人工資料,性能仍超SOTA;
- 初始具編碼能力的模型提升更快;
- 不同任務類型互補:全保留性能最好;
- 模型逐漸出現「中間註釋計畫」行為;
- 不同推理任務表現出不同的「認知行為」;
- Llama模型有時出現奇怪輸出,提示安全性問題。