近期,一項顛覆性的AI研究悄然發布,打破了我們對人工智能學習方式的傳統認知。這項名為「絕對零度」(Absolute Zero)的創新方法,實現了AI系統完全不依賴任何人類標註數據的情況下,通過自我對弈和自我進化,在多項複雜推理任務上超越了現有最先進模型。這一突破或將重新定義AI訓練的未來路徑。
1、傳統AI學習的瓶頸:人類數據依賴
當前最先進的大語言模型(LLMs)在推理能力上取得了顯著進步,主要依靠一種叫做「可驗證獎勵強化學習」(RLVR)的方法。然而,這些方法仍然高度依賴專家精心策劃的問題-答案數據集。
這種依賴帶來了嚴峻挑戰:
(1)不可持續的人力成本:隨著模型能力提升,構築高品質數據集的難度呈指數級增長。
(2)發展瓶頸:類似的擴展性問題已在LLM預訓練領域顯現。
(3)潛在限制:如果AI系統繼續發展並可能超越人類智能,過度依賴人類設計的任務可能會限制其自主學習和成長能力。
2、絕對零度:AI自我進化的新範式
研究團隊提出的「絕對零度」(Absolute Zero)範式徹底顛覆了這一現狀。在這個範式中,模型同時學會提出最大化學習潛力的任務並有效解決這些任務,通過自我對弈實現演進,而完全不依賴任何外部數據。
這一方法的核心機制包括:
(1)雙重角色:同一個模型同時扮演「提問者」和「解答者」
(2)環境反饋:利用代碼執行器作為可驗證的反饋源,確保訓練穩定性。
(3)三種推理模式:引入演繹(預測輸出)、歸納(合成程序)和溯因(推斷輸入)三種互補性推理模式
3、結果:無數據訓練超越SOTA
研究團隊基於這一範式開發了「絕對零度推理器」(AZR),並進行了大量實驗評估。結果令人震驚:
(1)儘管完全沒有接觸過任何特定領域的人類標註數據,AZR在數學和編程推理任務上的整體表現超過了之前所有模型。
(2)在代碼生成類任務中,AZR比專門使用編程數據集訓練的模型高出0.3個百分點。
(3)在數學推理上,AZR展現了驚人的跨域泛化能力,相比基礎模型提升了15.2個百分點。
這些結果令人驚訝地證明,即使沒有人類設計的特定領域訓練數據,AI系統也能通過自我對弈發展出強大的推理能力。
4、深入剖析:AZR如何工作?
(1) 自我生成任務與自我評估
AZR通過一個統一的大語言模型同時扮演兩種角色:
1) 提問者:創造新的推理任務,促進多樣性和廣泛覆蓋任務空間。
2) 解答者:嘗試解決這些新提出的任務,從環境獲得反饋。
(2) 三種核心推理模式
AZR利用代碼執行器作為靈活接口和可驗證環境,通過三種不同的推理模式學習:
1) 演繹(Deduction):給定程序和輸入,預測輸出,捕捉逐步邏輯推理。
2) 溯因(Abduction):給定程序和輸出,推斷合理的輸入,類似試錯或在線搜索。
3) 歸納(Induction):從一組輸入-輸出示例中,合成能泛化的程序,需要從部分信息進行泛化。
(3) 獎勵設計
提問者的獎勵函數鼓勵生成具有有意義學習潛力的任務——既不太簡單也不無法解決:
1) 任務太簡單(成功率=1):幾乎沒有學習信號。
2) 任務太難(成功率=0):同樣提供很少學習信號。
3) 中等難度任務:提供了最豐富的反饋和學習潛力。
5、發現:越來越像人類的思維方式
研究過程中,團隊發現了多項有趣的現象:
(1) 代碼能力放大整體推理能力 初始的Qwen-Coder-7b模型在數學表現上比標準Qwen-7b低3.6個點。但經過AZR訓練後,代碼專家模型反而在數學上超過了標準模型0.7個點,表明強編碼能力可能會放大AZR訓練後的整體推理能力。
(2) 顯著的跨域遷移 傳統代碼專家模型通過RLVR後,數學準確率平均僅提高0.65個點,而AZR訓練的模型在數學平均提升了10.9到15.2個點,展現了極強的泛化推理能力。
(3) 模型越大,收益越顯著 性能提升隨模型規模擴大:3B、7B和14B模型分別獲得+5.7、+10.2和+13.2點提升,表明持續擴大規模對AZR有利。
(4) 中間規劃能力自然湧現 解決代碼歸納任務時,AZR經常在註釋和代碼中交錯地制定逐步計畫,類似ReAct提示框架。這種行為也在更大的形式化數學模型如DeepSeek Prover v2(671B)中觀察到,表明允許模型在生成長形式答案時使用中間思考草稿可能在其他領域也很有益。
(5) 認知行為和令牌長度因推理模式而異 不同類型的任務展現出不同的認知行為:溯因任務增長最多,因為模型不斷嘗試直到輸出匹配,而演繹和歸納增長較為適中。
6、展望:經驗時代的開端
這項研究標誌著AI推理模型邁入了全新階段——「經驗時代」的開始。通過讓模型不僅解決給定任務,還定義和發展自己的學習任務分佈,研究顯示這種轉變可實現跨多樣化推理任務的強大性能,即使顯著減少人類數據等特權資源。
未來的研究方向可能包括:
(1)探索更多環境作為可驗證反饋源,如萬維網、形式化數學語言、世界模擬器甚至真實世界。
(2)擴展到更複雜的代理任務或科學實驗等不同應用領域。
(3)探索多模態推理模型。
(4)設計更有效的探索/多樣性獎勵機制。
這一突破可能最終將推理模型從人類策劃數據的限制中解放出來,開啟一個AI系統通過自身經驗不斷進化的新紀元。
「絕對零度」範式為人工智能訓練提供了一種全新思路,挑戰了我們對AI學習必須依賴人類數據的固有認知。它展示了AI系統通過自我對弈和環境反饋,能夠在沒有人類直接指導的情況下,發展出強大的推理能力。
這一發現不僅具有理論意義,更可能在實踐中徹底改變AI模型的訓練方式。隨著模型能力不斷提升,人類提供的任務可能越來越難以挑戰超級智能系統,而「絕對零度」範式或許是走向真正自主學習AI的關鍵一步。
論文標題:Absolute Zero: Reinforced Self-play Reasoning with Zero Data
論文鏈接:https://arxiv.org/abs/2505.03335
推薦閱讀
英偉達發布Llama-Nemotron系列推理模型、Zero to One: 詳解AI Agent設計模式
RM-R1:將獎勵建模視為推理過程的創新方法
DeepSeek-R1 發布後的 100 天:關於複製研究和推理語言模型的綜述