新智元報導
編輯:peter東 英智
【新智元導讀】新加坡國立大學等機構的研究人員,透過「元能力對齊」的訓練框架,模仿人類推理的心理學原理,將演繹、歸納與溯因能力融入模型訓練。實驗結果顯示,這項方法不僅提升了模型在數學與程式設計任務上的效能,更展現了跨領域的擴展性。
當AI試圖破解數學、程式設計與科學的難題時,它往往像個靈光乍現的天才,卻又難以穩定發揮。
新加坡國立大學、清華大學和Salesforce AI Research 的研究人員,提出了一種革命性的訓練框架——元能力對齊,賦予模型穩健的推理能力,讓「頓悟時刻」成為常態。
論文連結:https://arxiv.org/abs/2505.10554
他們提出了一項能使大型推理模型的能力更具可控性和可靠性的訓練方法,能夠高效地系統化培養大模型在數學、程式設計和科學問題上的基本推理能力。
要理解其突破,需要知道何謂「啊哈時刻」。這裡指的是在使用純強化學習訓練大模型時,大模型偶然展現出的高階推理行為,如自我糾正、回溯和驗證等。
DeepSeek-R1 的成功表明,從預訓練基礎模型或指令微調模型開始,基於規則的純強化學習能夠自發地湧現出長鏈式思維推理、自我糾正、自我反思等高階行為。
然而,這些湧現行為的頻率和一致性,卻始終不可預測且無法控制,這限制了大模型的推理能力的可擴展性和可靠性。
實驗方法:模仿心理學,讓大模型穩定地湧現出推理能力
要想做到超越「頓悟時刻」,就需要借鑒心理學家皮爾斯提出的經典推理三元組。該理論指出人類的推理能力,可以分為三個組件之間的組合,分別是假設、觀察和規則,根據任意兩個,可以推導出第三個。
例如,根據觀察和假設,透過歸納得到可泛化的規則;而基於規則和假設,能根據演繹推斷出未來可能的觀察結果;至於基於規則和觀察,得到假設的過程,則稱之為溯因。
圖1:皮爾斯提出的推理元能力三元組
有了這樣的分類,研究人員據此建構了一個程式,能自動化生成上述三類推理的實例,用於大模型的訓練,並對大模型輸出的結果自動進行驗證。程式生成的任務,是由常見資料組合而成,但又不在訓練資料集中的,因此可訓練模型的元推理能力。
例如,在演繹推理(H+R⇒O)中,模型被給定一組邏輯規則R和一個候選真值賦值H作為假設,必須驗證整體觀察結果O(即所有公式為真)是否成立。
而在歸納推理(H+O⇒R)中,模型被提供可觀察項O和不完整輸入H,必須抽象出底層生成規則R;在溯因推理(O+R⇒H)中,模型被給定觀察結果O和一個規則圖R,必須反向追蹤以恢復能夠邏輯解釋結論的最小隱藏假設集H。
下面是作者給出的一個訓練資料的例子,以提示詞及正確回覆的方式呈現。
每個訓練實例由自動化生成器產生,並由驗證器篩選,從而生成大規模、自我校驗的訓練資料,完全無需人工標註。
圖2:模型訓練的三階段流程概述:對演繹、歸納和溯因專家進行對齊,在參數空間中合併它們,並持續使用強化學習訓練統一模型到下游領域
具體來看,該架構下的大模型,可視為一個類似混合專家模型的架構。每類專家在接收到訓練資料後,會先各自提升自己的能力。演繹推理的「專家」在訓練後會產生假設生成、邏輯推論傳播、經驗一致性檢測和糾錯。
歸納專家增強了模型在抽象和概括方面的基本能力;而溯因專家則從目標開始,以假設最小支持性為前提,對照已知事實,高效地進行目標導向的假設形成、驗證和修訂的重複循環,相當於對因果圖進行剪枝。
這些能力是跨領域進行穩健推理的必要組成部分。
之後研究人員會透過參數空間融合,將這些專家合併,然後在數學、程式設計和社交互動這三種情境下分別使用強化學習訓練專家模型(稱之為Domain-RL-Meta特定領域元強化學習),之後再對訓練好的模型進行融合。
這種訓練方法,被稱為元能力對齊。
實驗結果
高效且可擴展的訓練方式
對於上述三類任務,該研究對問題難度進行了分級,並採用循序漸進的學習策略,從易到難逐級訓練模型。
按照這個計畫,7B 模型在2級問題時效能收斂,並且在使用更高等級的訓練資料集時,不再提升效能。32B 模型偶爾受益於3級難度的訓練資料,但獎勵曲線不穩定,因此該研究中也沒有採用。
研究人員在訓練過程中,對於7B 模型,每個任務每個級別實驗200個實例;對於32B 模型,每個任務每個級別適應2000個實例。
結果顯示:相較於指令微調基準(Qwen-2.5),基於元能力對齊的訓練方法使模型在數學、程式設計和科學問題的7個模型從未見過的基準測試上的準確率提高了10%以上,並透過特定領域強化學習獲得進一步增益。
在7B和32B規模下,元能力對齊和合併的模型始終優於指令微調的基準模型,合併後的模型取得了最高增益。
在7B規模模型上,數學問題的平均分數從基準的38.8%提升到Domain-RL-Meta的43.0%;而沒有經過元能力對齊,僅進行特定領域的強化學習,訓練後的表現只有41.2%。
參數量擴展至32B時,數學問題上的表現從46.9%上升至50.3%(特定領域強化學習)再上升至52.3%(元能力對齊+特定領域強化學習),整體平均分數從44.6%上升至47.4%再上升至48.8%。
對比7B和32B參數量的提升,可看出元能力對齊帶來的收益隨模型規模增加而擴展,顯著提升了各項任務的效能上限,尤其是在數學任務上,合併三種推理模式後,訓練好的模型效能提升了11.1%。
表1:不同參數量下,適應元能力對齊訓練的大模型在數學和程式設計問題上的效能
這說明該框架為在數學、程式設計和科學領域提升推理能力提供了一種可擴展、可推廣且可控的方法,有助於建構可解釋且穩健的推理模型。
這就如同學生學到了能駕馭各家功夫的「小無相功」後,就能在各種問題上游刃有餘。
參考資料:
https://www.alphaxiv.org/abs/2505.10554
https://www.alphaxiv.org/overview/2505.10554