數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制

圖片

論文標題:

Does Learning Mathematical Problem-Solving

Generalize to Broader Reasoning?

論文連結:

https://arxiv.org/pdf/2507.04391

一句話理解:

本文探討了數學問題求解(Mathematical Problem-Solving, MPS)訓練方法對大型語言模型(LLMs)在更廣泛推理能力上的泛化潛力。研究的核心問題是:學習數學問題求解是否能夠提升模型在其他推理任務上的表現,還是僅限於提高數學問題求解的基準測試效能。

研究背景

圖片

認知神經科學研究表明,學習數學問題求解能夠透過促進邏輯思維、抽象推理和跨領域可轉移的問題解決策略,提升人類的通用推理能力。

這種「數學促進AI」的理念認為,將數學推理資料納入AI訓練中,可能會有助於大型語言模型發展更複雜和多樣化的推理能力。

然而,目前大多數研究集中在開發專門用於解決數學問題的模型,而對於這些訓練方法是否真的能夠幫助模型在其他類型推理任務上表現更好尚不清楚。

研究方法

文章研究了五種常見的用於提升LLMs數學問題求解能力的訓練策略:

1. 持續預訓練(Continual Pretraining):在大規模數學文本上擴展LLMs的預訓練,以增強其對數學領域的適應性。

2. 基於STEM資料的監督微調(Supervised Fine-tuning on STEM Data):使用來自廣泛STEM學科的多樣化問答對訓練模型,以提升其通用推理能力。

3. 基於短推理鏈的MPS樣本的監督微調(Supervised Fine-tuning on MPS Samples with Short Reasoning Chains):直接在數學問題求解資料集上訓練模型,這些資料集的解決方案以簡潔的、逐步的形式呈現。

4. 基於長推理鏈的MPS樣本的監督微調(Supervised Fine-tuning on MPS Samples with Long, Self-Reflective Reasoning Chains):一種新興範式,透過增強模型生成擴展性和反思性的推理來提升其能力。

5. 基於規則的強化學習(Rule-based Reinforcement Learning):使用基於規則的獎勵機制來提升模型的推理能力。

實驗設計

評估基準:研究者選擇了5個數學問題求解基準測試和8個通用推理基準測試來評估模型。

模型設定:使用了多種開源模型或自行訓練的模型,涵蓋了上述五種訓練策略。

實驗設定:為了模擬現實場景,大多數實驗中都加入了通用對話資料集(UltraChat)進行微調。

關鍵結論

圖片

1. 持續預訓練的效果:持續預訓練在數學文本上能夠提升模型在6個通用推理任務上的表現,但對數學問題求解的提升有限。

2. 短推理鏈的局限性:基於短推理鏈的監督微調在數學問題求解任務上表現良好,但在非數學推理任務上表現不佳,甚至在某些情況下損害了泛化效能。

3. 長推理鏈的優勢:使用長推理鏈進行訓練的模型(如LIMO)在通用推理任務上表現顯著提升,特別是在某些基準測試中,如GPQA和LogiQA,相對提升分別達到10.2%和11.8%。這種長推理鏈訓練啟動了模型的「長推理模式」,使其在不同推理任務中表現更好。

4. 強化學習的潛力:基於規則的強化學習(如SimpleRL-Zero和SimpleRL)在數學和通用推理任務上均表現出提升,表明強化學習可能是一種有效的提升推理能力的方法。

其他發現

資料覆蓋範圍的重要性:透過資料覆蓋分析發現,預訓練資料集(如OpenWebMath)與通用推理任務的重疊度高於專門的數學問題求解資料集(如MetaMath),這可能是其在泛化任務中更有效的原因。

非數學推理資料的局限性:研究者還探索了其他非數學推理資料集(如Magicoder-Evol-Instruct、Magpie-Reasoning和OpenOrca)的泛化潛力,但這些資料集未能在廣泛的任務中實現滿意的泛化效果,表明需要新的訓練目標來顯著提升泛化能力。

圖片

結論

文章透過實驗表明,傳統的短推理鏈訓練方法在提升模型的通用推理能力方面效果有限,而長推理鏈訓練和基於規則的強化學習則顯示出更好的泛化潛力。這些發現為未來研究提供了新的方向,即如何透過數學問題求解訓練來提升模型的通用推理能力。

主標籤:人工智慧

次標籤:大型語言模型模型訓練數學推理機器學習


上一篇:吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL

下一篇:RL反直覺研究:直接給大型語言模型餵答案比提供詳細步驟更有用!

分享短網址