清華等提出 Absolute Zero 自博弈大型模型，完全零資料訓練仍登頂多項任務

介紹了一種名為「絕對零點推理器」（AZR）的新方法，它為模型提供了一種無需人工輸入即可自主演進推理技能的方法。

作者：Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*

作者單位：

清華大學
北京通用人工智慧研究院（BIGAI）
賓夕法尼亞州立大學

論文連結：https://arxiv.org/abs/2505.03335

程式碼連結：https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

簡介

人工智慧模型如何在沒有人類資料的情況下自我學習？

透過學習人工篩選的樣本，大型語言模型（LLM）的推理能力正在不斷提升，但這種對專家精心製作資料的依賴正成為瓶頸。隨著模型能力的提升，維護高品質訓練資料集的努力正變得難以為繼。

本文介紹了一種名為 Absolute Zero 「絕對零點推理器」（AZR）的新方法：一個統一的大型語言模型（LLM）同時擔任任務提出者（Proposer）與求解者（Solver），透過與可執行環境（如Python解釋器）互動進行強化自博弈訓練。儘管完全未用人類標註資料，AZR在數學與程式設計推理任務上超越多個使用上萬標註樣本的SOTA模型。「絕對零點」範式如圖1所示：

絕對零點範式

圖 1. 絕對零點範式

監督學習依賴於人工策劃的推理軌跡進行行為複製。強化學習基於已驗證的獎勵，使代理（agent）能夠自學推理，但仍然依賴於專家定義的學習分佈和一組精心策劃的問答對，這需要領域專業知識和人工投入。相比之下，文中引入了一種新的範式——「絕對零點」，用於在沒有任何人工策劃資料的情況下訓練推理模型。設想代理應該自主地提出針對可學習性進行優化的任務，並學習如何使用統一模型來解決這些任務。代理透過與提供可驗證反饋的環境互動來學習，從而完全無需人工干預即可實現可靠且持續的自我改進。

研究動機

傳統監督學習（SFT）需人工標註推理過程，不可擴展；
帶可驗證獎勵的強化學習（RLVR）雖可緩解部分問題，但仍需人類提供問答分佈；
大型模型能力提升後，人工設計任務對其訓練增益逐漸降低；
亟需自我提出、自我解決、自我學習的範式，即絕對零點範式。

論文貢獻

提出絕對零點範式（Absolute Zero Paradigm）：零資料、零外部問答、純自博弈強化學習；
實現絕對零點推理器（AZR）：統一模型自舉學習多種推理任務；
使用可執行環境（程式碼執行器）作為唯一獎勵來源；
設計三種基本推理任務：歸納、演繹、溯因；
在無需任何人類資料的前提下，AZR在程式碼與數學任務中超越多個SOTA；
提出新型優勢估計器 TRR++，用於多任務強化學習。

絕對零點推理器的工作原理

AZR模型如圖2所示，採用任務創建和問題解決的連續循環，以三種核心推理模式為指導。它依賴於程式碼執行器，該執行器無需人工干預即可驗證任務、檢查解決方案並提供客觀反饋。

(1) 雙重角色：

AZR 將大型語言模型同時作為：

任務提出者（Proposer）：生成可學習推理任務；
任務求解者（Solver）：嘗試解決這些任務；

提出者和求解者由同一個模型身兼兩職。作為提出者，它會生成編碼任務，例如編寫函數或預測輸出，同時確保這些任務既不太簡單也不太難以解決。作為求解者，它會嘗試執行這些任務，透過反覆試驗來提升其推理能力。獎勵分為：提出者因創建「A」任務（中等難度）而獲得分數，而求解者則根據正確性獲得評分。

(2) 三種推理模式

任務分為三類，受邏輯推理的啟發：

演繹：根據程式碼和輸入預測輸出（例如，「當x=3 時，f(x)=x+2返回？」）。

溯因推理：推斷產生特定輸出的輸入（例如，「找到x使得f(x)=5 」）。

歸納：編寫與輸入輸出範例相匹配的程式碼（例如，「創建一個映射這些對的函數」）

目標函數旨在優化學習過程，同時考慮所提出任務的可學習性和已解決任務的準確性。

AZR 整體流程

圖2. AZR 整體流程

模組 1：推理任務三分類

每個任務形式為三元組（程式、輸入、輸出）：

演繹（Deduction）：給定程式和輸入，預測輸出；
溯因（Abduction）：給定程式和輸出，預測輸入，使得程式應用於輸入後產生該輸出；
歸納（Induction）：給定多個輸入輸出範例，歸納出生成它們的程式。

模組 2：任務獎勵機制

提出任務獎勵（可學習性）：若任務太簡單或太難，則不獎勵；中等難度任務可提供最大訓練增益。
求解任務獎勵（準確性）：對正確的解給予獎勵。
最終獎勵：考慮格式規範性懲罰：
- 合法輸出，若格式正確且輸出正確。
- 格式正確但輸出錯誤。
- 格式錯誤。

模組 3：自博弈訓練流程

步驟如下：

初始化三類任務緩衝區（演繹、溯因、歸納）；
每輪：

提出新任務；
用環境驗證是否合法；
加入緩衝區；
解決給定任務；
獎勵計算 + 強化學習更新（使用 TRR++）。

強化學習採用 Task-Relative REINFORCE++（TRR++）。

實驗結果

實驗設置

模型：Qwen2.5系列（3B / 7B / 14B），Llama3.1-8B；
資料：完全無人工資料；
評估：
- 數學：AIME, OlympiadBench, AMC, MATH500, Minerva 等；
- 程式設計：HumanEval+, MBPP+, LiveCodeBench 等。

主要結果

絕對零點推理器的優勢：

絕對零點推理器模型完全無需人工資料即可進行訓練，其性能甚至超越了基於數千個專家範例進行微調的模型。在HumanEval+和MBPP+等程式設計基準測試中，它創下了新的SOTA分數。

表1：絕對零點推理器在程式碼基準測試中的性能

在數學推理（AIME、AMC）中，即使僅針對程式碼任務進行訓練，它也展現出強大的跨領域泛化能力。主要發現包括：

擴展優勢：更大的基礎模型（7B→14B參數）顯示出更大的性能提升，這表明隨著模型的增長，性能會持續提升。

程式碼增強推理能力：經過AZR訓練後，在程式碼上預先訓練的模型在數學方面的表現優於通用模型，這暗示了程式設計和抽象推理之間的協同作用。

緊急計畫：與人類一樣，AZR開始在其程式碼中添加分步註釋，模仿ReAct提示等技術，這是一種未明確教授的行為。

表2：絕對零點推理器在數學基準測試中的性能

圖3： emergent 行為的定性分析

然而，也存在一些需要注意的問題。較大的模型偶爾會在推理鏈中產生較差的結果，這凸顯了安全保障措施的必要性。此外，自主系統可能會出現意想不到的行為，而且隨著任務變得越來越抽象，驗證其解決方案也會變得越來越困難。

論文總結

總體來說AZR的主要特點如下：

不需要人工資料，性能仍超SOTA；
初始具編碼能力的模型提升更快；
不同任務類型互補：全保留性能最好；
模型逐漸出現「中間註釋計畫」行為；
不同推理任務表現出不同的「認知行為」；
Llama模型有時出現奇怪輸出，提示安全性問題。