模型越聰明越「不聽話」?MathIF基準揭示AI服從性漏洞

如果面前有兩個 AI 助手:一個很聰明但經常不守規矩,另一個很聽話但不太聰明,你會怎麼選?

最近,上海人工智慧實驗室與香港中文大學的研究團隊發表了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,透過一個全新的評測基準 MathIF 揭示:

大型模型越擅長複雜推論,越容易忽略使用者的指令要求,「聰明」和「聽話」之間存在明顯的矛盾。

這項工作的靈感,源自實際使用推論模型(如 o3)過程中的一個意外發現:相比許多經過強化推論訓練的大型模型,GPT-4o 在執行具體指令時反而更加「聽話」。也正是這種「越聰明、越不聽話」的真實體驗,讓研究團隊開始系統性地研究推論能力與指令遵循之間的關係。

這項研究也引來 𝕏 知名部落客的轉發:

圖片

研究揭示越擅長數學推論的模型反而越難完全遵守指令,同時分析了模型大小與服從性的非正相關現象,強調了推論能力與指令遵循之間的權衡。

論文位址:https://arxiv.org/pdf/2505.14810

Github 位址:https://github.com/TingchenFu/MathIF

MathIF:衡量推論模型「聽話程度」的新基準

MathIF 基準專門針對數學推論任務,考察 AI 模型是否嚴格遵循使用者給出的指令要求。這些要求包括格式、語言、長度和特定關鍵詞使用,均可透過程式自動驗證。

MathIF 由來自不同難度的數學題目組成,涵蓋了從簡單的數學問題(GSM8K)到複雜的數學競賽題目(AIME)。每個題目都會附帶具體而明確的指令,比如:「答案必須以一句中文完整作答,不能有多餘解釋。」

此外,MathIF 還設計了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束複雜程度下的表現。模型不僅需要正確解題,還要嚴格遵守這些指令要求。

自動評分程式會精確檢查答案是否符合每個具體的指令標準,分別以硬準確率(HAcc)和軟準確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。

圖片

圖表 1. MathIF 的指令類型

越聰明越不聽話?實驗揭示「聰明」與「聽話」的矛盾

研究團隊使用 MathIF 評測了 23 個當前主流的大型模型。這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外:在數學推論能力表現越出色的模型,反而更難完全遵守使用者給定的指令要求。即使是表現最佳的模型 Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力並不呈正相關,甚至有時會出現負相關——即更大的模型不一定更守規矩。一些較小的模型反而更善於嚴格執行使用者的指令。

指令遵循(instruction-following)與數學推論能力(mathematical reasoning)之間存在一種權衡關係(trade-off)。也就是說,當模型在推論能力上表現得更強時,它往往更容易忽略或違反使用者的具體指令。

圖片

圖表 2. 23 個大型推論模型在 MathIF 上的表現。

模型按服從性(HAcc + SAcc)表現從高到低排序。表中†符號表示該模型僅透過監督式微調(SFT)訓練,未使用推論導向的強化學習方法。粗體 + 底線標記則分別代表各欄位指標中的前兩名與後兩名。

為什麼聰明模型更「不聽話」?

研究團隊進一步分析了這個現象背後的原因:

原因一:推論導向的訓練模式

研究發現,旨在強化模型推論能力的訓練方式(如監督式微調(SFT)和強化學習(RL)),雖然顯著提升了模型的「智力」,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注於如何準確解題,而容易忽視諸如格式、字數等細節要求。正如同圖 3 所示,無論是 SFT 還是 RL,推論導向訓練雖然提升了解題表現,卻普遍導致模型在指令遵循能力(HAcc 與 SAcc)上的下降。

圖片

圖表 3. 推論導向訓練策略的對比。Avg. Acc. 表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較於基礎模型性能的提升和下降。

原因二:長推論鏈降低服從性

模型輸出的推論過程越長(「鏈式思考」越複雜),越容易「忘記」指令要求。長段的複雜推論過程,容易讓模型注意力分散,最後導致違背使用者指令。如下圖,將模型的推論結果依照長度進行分桶,推論長度越長,模型的指令遵循準確率越低。

圖片

圖表 4. 六個不同推論鏈長度區間下的 HAcc 和 SAcc 表現;長度分桶編號越大表示生成的推論鏈越長。

研究團隊透過實驗進一步驗證了這項現象:當模型被引導生成更長的推論過程時,其遵循指令的準確率會明顯下降。

具體做法是,在模型推論結束前人為添加「wait」等提示,迫使其繼續延長思考過程,從而生成更長的推論鏈。如下圖所示,「思考越多」,模型對指令的執行反而越不準確。

圖片

圖表 5.隨著思考次數從 2 增加到 8,模型指令遵循能力(SAcc)的變化趨勢(GSM8K)。

此外,研究團隊還透過在訓練階段控制模型的推論長度,進一步觀察其指令遵循能力的變化。

具體而言,他們在強化學習(RL)的 rollout 階段設定最大生成長度限制,超過該長度的回覆將無法獲得獎勵,從而間接壓縮模型的推論鏈長度。

從下圖可以看出,限制推論長度有助於顯著提升模型的指令遵循能力(HAcc 和 SAcc)。當最大長度控制在 1k 以內時,模型在服從性方面的表現甚至超過了原始基準模型。

圖片

圖表 6. RL 訓練中最大響應長度的影響。紅色區域表示相較於基礎模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論:偏向生成更長推論鏈的推論導向訓練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推論能力與指令服從性之間長期存在的權衡關係。

小技巧:讓模型更「聽話」的簡單方法

研究者也嘗試了一個簡單的方法改善模型的「聽話程度」:在模型推論結束後,輸出答案之前,再次重複一遍指令要求。

結果顯示,這種方法拉近了指令和回覆的距離,確實有效提升了模型的指令遵守能力,但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則,不得不犧牲一點自己的「聰明」。

圖片

圖表 7. 透過在推論後重複指令提升指令遵循能力。

當前主流的推論導向訓練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI 的「聰明」與「聽話」之間,正面臨一場難以調和的矛盾。

未來,MathIF 基準有望建構既能深入思考,又能嚴格守規矩的大型模型。

圖片圖片圖片

主標籤:人工智慧

次標籤:大型語言模型AI倫理數學推論指令遵循


上一篇:首個基因推理AI橫空出世!準確率飆升至97%,徹底改變基因體學研究

下一篇:深度研究也「白菜化」?Google 開源 Gemini 等級的 AI 研究能力

分享短網址