不需SFT也不用RL，樣本級推論優化神器SLOT登場，準確率輕鬆提升10%

近期，當許多人還在糾結該用什麼標籤（label）和獎勵（reward）來訓練大型模型，以及該用什麼樣的基準模型進行公平比較時，西湖大學MAPLE實驗室另闢蹊徑：既然大型語言模型（LLM）在複雜指令上表現不佳，需要引入單獨的SFT（監督式微調）或RL（強化學習）過程，那為何不讓模型在推論時「臨時學習」一下這個具體問題呢？這個看似「異想天開」的想法，竟然帶來了驚人的效果提升。

試想一下，如果你參加考試時，可以在答題前花幾秒鐘「適應」一下這道具體的題目，你的表現會不會更好？

這正是西湖大學研究團隊在最新論文中提出的核心思想。他們開發的SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每個輸入提示（prompt）本身當作一份「迷你訓練資料」，讓模型在生成答案前先「學習」理解這個具體問題。

更令人驚訝的是，這個方法簡直簡單到不可思議：

只需要最佳化一個輕量級的參數向量delta（僅修改最後一層特徵）

只需要幾步（例如3步）梯度下降

計算開銷幾乎可以忽略不計（僅增加7.9%的推論時間）

完全即插即用，無需修改原始模型

論文標題：SLOT: Sample-specific Language Model Optimization at Test-time

論文地址：https://arxiv.org/pdf/2505.12392

GitHub地址：https://github.com/maple-research-lab/SLOT

效果驚人

多項基準測試刷新紀錄

即使以最具挑戰性的高效能基準作為比較對象，實驗結果仍令人矚目（所有日誌皆已開源於GitHub上）：

Qwen2.5-7B在GSM8K數學推論任務上，準確率從57.54%飆升至66.19%，提升8.65個百分點。

DeepSeek-R1-Distill-Llama-70B在GPQA Diamond上達到68.69%，創下70B級別開源模型新紀錄。

在高難度的AIME 2024數學競賽題上，多個模型實現10%以上的提升。

核心創新

將提示（Prompt）視為「測試時訓練樣本」

傳統的大型語言模型（LLM）在面對複雜或特殊格式的指令時，經常會「失靈」，可能會忽略格式要求或給出錯誤答案。

SLOT的解決方案既優雅又簡單：針對單一問題，直接在最後一層特徵上增加一個delta向量，並在問題提示（prompt）本身上最小化交叉熵損失即可。

由於僅需在最後一層上最佳化一個加性的delta參數向量，每個問題只需經過一次網路推論。透過將輸入給最後一層的中間結果進行快取（caching），最佳化delta的過程幾乎不需要增加額外的計算開銷。

由於方法十分簡單，任何偽代碼公式都顯得多餘，這裡提供如何將SLOT應用於您的工作的transformers版本程式碼（vLLM版本也已開源）。

以modeling_qwen.py中的Qwen2ForCausalLM模型為例，研究團隊在forward函數中獲得hidden_states之後插入這段程式碼：首先初始化一個全零的delta向量，加在最後的隱藏狀態（last hidden states）上；然後使用當前的提示（prompt）作為訓練資料，delta作為可學習參數，以交叉熵損失進行最佳化，得到樣本特有的delta參數；之後即可使用最佳化後的delta來生成後續的詞元（token）。

為何如此有效？

深入分析揭示秘密

研究團隊透過分析發現，SLOT最佳化後的delta會顯著調整輸出詞彙的機率分佈：

增強的詞彙：reasoning、think、thinking等推論相關詞彙

抑制的詞彙：數字符號（0-9）、情態動詞（should、will）、結束符</s>

這意味著SLOT鼓勵模型「深思熟慮」，避免過早結束推論或陷入表面的模式匹配。

亮點在於：不同於SFT或RL的微調演算法，此方法無需：

修改模型架構

額外的訓練資料

複雜的取樣策略

昂貴的計算資源

廣泛適用

從1.5B到70B，從基礎模型到推論專家

Qwen系列：1.5B到32B均有提升。

Llama系列：包括Llama-3.1。

DeepSeek-R1系列：即使是已經專門最佳化過推論能力的模型，仍能獲得顯著提升。

特別值得注意的是，在最具挑戰性的任務上，SLOT的提升最為明顯：

C-Eval Hard子集：+8.55%

AIME 2024：部分模型提升超過13%

GPQA Diamond：從65.66提升到68.69（開源SOTA級別）

結語

在大型模型時代，當所有人都追求「更大、更強」時，SLOT用一個簡單得「異想天開」的想法證明：有時候，讓模型在回答前先「理解」一下問題，就能帶來驚人的效果。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

不需SFT也不用RL，樣本級推論優化神器SLOT登場，準確率輕鬆提升10%

分享短網址