AM-Thinking-v1:在32B規模推進推理能力的前沿

1、引言:AI進化新里程碑

還記得去年末,各大廠商爭相推出超大規模AI模型的場景嗎?OpenAI的o1、Google的Gemini 2.5、Anthropic的Claude 3.7...這些模型動輒數千億參數,令人咋舌。但你是否想過:是否真的需要如此龐大的模型才能獲得卓越的推理能力?

圖片

近日,研究人員發布了一個名為"AM-Thinking-v1"的模型,僅用32B參數的密集架構,卻在數學推理和程式碼生成等高難度任務上取得了驚人成績,甚至超越了擁有671B參數的DeepSeek-R1和接近Qwen3-235B-A22B等混合專家模型。這一成果有何意義?又是如何實現的?讓我們一探究竟。

2、揭開面紗:中等規模也能有超強推理能力

如果說大型語言模型的發展是一場馬拉松,那麼大多數公司都在朝著"更大就是更好"的方向狂奔,而AM-Thinking-v1卻選擇了一條不同的路:精益求精,而非盲目擴張。

這個模型在數學競賽級別的AIME 2024和AIME 2025測試中分別獲得了85.3和74.4的高分,在LiveCodeBench程式碼基準測試中取得了70.3的成績。這意味著什麼?簡單來說,它在解決複雜數學問題和編寫高品質程式碼的能力上,已經超越了許多擁有10倍甚至20倍參數量的大型模型!

更令人驚嘆的是,研究團隊完全基於開源的Qwen2.5-32B基礎模型和公開可用的訓練資料構建了這一成果。這就好比在相同的原材料下,通過精湛的工藝創造出了遠超預期的產品。

3、技術拆解:精心設計的後訓練流程如何改變遊戲規則

AM-Thinking-v1的成功不是偶然,而是源於研究人員精心設計的後訓練流程。這個流程主要包含兩大關鍵環節,正是這些環節讓一個普通的基础模型獲得了超強的推理能力。

(1)數據處理:質量勝於數量

研究團隊沒有盲目追求海量數據,而是對所有訓練數據進行了嚴格的篩選和處理:

1)嚴格去重:移除重複的查詢樣本

2)質量過濾:剔除帶有URL或引用圖像

3)數據驗證:特別是對數學數據,他們建立了一個完整的處理管道,包括查詢過濾和答案驗證

對於數學數據,研究人員甚至使用DeepSeek-R1來生成多個回答,並與原始答案進行比較。當發現不一致時,他們會再次諮詢o4-mini模型獲取替代答案。這種精細的數據驗證確保模型不會從錯誤中學習,大大提高了訓練效果。

(2)兩階段訓練:SFT + RL的強力組合

訓練過程採用了兩個階段的設計:

第一階段:監督微調(SFT)

1)使用約284萬個樣本,覆蓋數學、程式設計、科學、指令跟隨和一般對話五大類別

2)採用了較高的學習率(8e-5)和較大的批量大小(64)

3)針對多輪對話數據,僅使用包含推理過程的最終回答作為訓練目標

第二階段:強化學習(RL)

1)採用難度感知的查詢選擇,過濾掉通過率為0或1的樣本,確保訓練數據足夠有挑戰性

2)使用分組相對策略優化(GRPO)算法,不設KL約束

3)雙階段生成和學習率調度:第一階段限制最大響應長度為24K,學習率為4e-6;第二階段增加最大響應長度至32K,降低學習率至1e-6

研究人員發現,在訓練初期使用較大的學習率能夠使模型更快地收斂,大大減少了整體訓練成本。這證明,精心設計的訓練策略能夠彌補參數規模的不足。

圖片

圖片

4、結語

AM-Thinking-v1的成功具有多重意義:

(1)成本效益:相比動輒數千億參數的MoE模型,32B密集模型的推理和部署成本要低得多,這意味著更多機構和開發者可以負擔得起高水平的AI能力

(2)實用性優勢:中等規模模型更容易部署和微調,適合更廣泛的應用場景

()開源創新:證明開源社群也能構建媲美專有系統的高效能模型,促進AI技術的民主化

研究方向轉變:表明AI領域的進步不僅僅依賴於增加參數規模,精細的後訓練設計同樣重要

儘管AM-Thinking-v1取得了令人印象深刻的成果,但它仍有一些局限性:缺乏對結構化函數調用和工具使用的支持,沒有多模態輸入能力,安全對齊還處於初級階段。

然而,這項研究無疑為未來的AI發展提供了一條新思路:通過精心設計的訓練流程,中等規模的模型也能在特定任務上達到甚至超越超大規模模型的表現。

這一範式轉變可能會影響整個AI行業的發展方向,使更多研究者和開發者開始思考:是否可以通過更聰明的方法,而非簡單地堆砌參數,來提升AI的能力?

隨著像AM-Thinking-v1這樣的模型不斷湧現,我們有理由相信,AI的未來不僅僅屬於擁有海量計算資源的科技巨頭,也屬於那些能夠巧妙利用有限資源創造非凡價值的創新者。

論文標題:AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

論文連結:https://arxiv.org/abs/2505.08311

推薦閱讀

FloE:讓MoE模型"瘦身"提速50倍!

INTELLECT-2:首個去中心化訓練的推理型AI模型

MiMo:釋放語言模型的推理潛力 —— 從預訓練到後訓練

主標籤:人工智慧

次標籤:大型語言模型開源模型模型推理模型訓練


上一篇:Thoughtworks 首席技术官:人工智能意味着我们比以往任何时候都更需要开发者

下一篇:登上 Arena 榜首!MiniMax 最新 Speech-02 模型屠榜:超越 OpenAI、ElevenLabs,人聲相似度 99%

分享短網址