近期,當許多人還在糾結該用什麼標籤(label)和獎勵(reward)來訓練大型模型,以及該用什麼樣的基準模型進行公平比較時,西湖大學MAPLE實驗室另闢蹊徑:既然大型語言模型(LLM)在複雜指令上表現不佳,需要引入單獨的SFT(監督式微調)或RL(強化學習)過程,那為何不讓模型在推論時「臨時學習」一下這個具體問題呢?這個看似「異想天開」的想法,竟然帶來了驚人的效果提升。
試想一下,如果你參加考試時,可以在答題前花幾秒鐘「適應」一下這道具體的題目,你的表現會不會更好?
這正是西湖大學研究團隊在最新論文中提出的核心思想。他們開發的SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每個輸入提示(prompt)本身當作一份「迷你訓練資料」,讓模型在生成答案前先「學習」理解這個具體問題。
更令人驚訝的是,這個方法簡直簡單到不可思議:
只需要最佳化一個輕量級的參數向量delta(僅修改最後一層特徵)
只需要幾步(例如3步)梯度下降
計算開銷幾乎可以忽略不計(僅增加7.9%的推論時間)
完全即插即用,無需修改原始模型
論文標題:SLOT: Sample-specific Language Model Optimization at Test-time
論文地址:https://arxiv.org/pdf/2505.12392
GitHub地址:https://github.com/maple-research-lab/SLOT
效果驚人
多項基準測試刷新紀錄
即使以最具挑戰性的高效能基準作為比較對象,實驗結果仍令人矚目(所有日誌皆已開源於GitHub上):
Qwen2.5-7B在GSM8K數學推論任務上,準確率從57.54%飆升至66.19%,提升8.65個百分點。
DeepSeek-R1-Distill-Llama-70B在GPQA Diamond上達到68.69%,創下70B級別開源模型新紀錄。
在高難度的AIME 2024數學競賽題上,多個模型實現10%以上的提升。
核心創新
將提示(Prompt)視為「測試時訓練樣本」
傳統的大型語言模型(LLM)在面對複雜或特殊格式的指令時,經常會「失靈」,可能會忽略格式要求或給出錯誤答案。
SLOT的解決方案既優雅又簡單:針對單一問題,直接在最後一層特徵上增加一個delta向量,並在問題提示(prompt)本身上最小化交叉熵損失即可。
由於僅需在最後一層上最佳化一個加性的delta參數向量,每個問題只需經過一次網路推論。透過將輸入給最後一層的中間結果進行快取(caching),最佳化delta的過程幾乎不需要增加額外的計算開銷。
由於方法十分簡單,任何偽代碼公式都顯得多餘,這裡提供如何將SLOT應用於您的工作的transformers版本程式碼(vLLM版本也已開源)。
以modeling_qwen.py中的Qwen2ForCausalLM模型為例,研究團隊在forward函數中獲得hidden_states之後插入這段程式碼:首先初始化一個全零的delta向量,加在最後的隱藏狀態(last hidden states)上;然後使用當前的提示(prompt)作為訓練資料,delta作為可學習參數,以交叉熵損失進行最佳化,得到樣本特有的delta參數;之後即可使用最佳化後的delta來生成後續的詞元(token)。
為何如此有效?
深入分析揭示秘密
研究團隊透過分析發現,SLOT最佳化後的delta會顯著調整輸出詞彙的機率分佈:
增強的詞彙:reasoning、think、thinking等推論相關詞彙
抑制的詞彙:數字符號(0-9)、情態動詞(should、will)、結束符</s>
這意味著SLOT鼓勵模型「深思熟慮」,避免過早結束推論或陷入表面的模式匹配。
亮點在於:不同於SFT或RL的微調演算法,此方法無需:
修改模型架構
額外的訓練資料
複雜的取樣策略
昂貴的計算資源
廣泛適用
從1.5B到70B,從基礎模型到推論專家
Qwen系列:1.5B到32B均有提升。
Llama系列:包括Llama-3.1。
DeepSeek-R1系列:即使是已經專門最佳化過推論能力的模型,仍能獲得顯著提升。
特別值得注意的是,在最具挑戰性的任務上,SLOT的提升最為明顯:
C-Eval Hard子集:+8.55%
AIME 2024:部分模型提升超過13%
GPQA Diamond:從65.66提升到68.69(開源SOTA級別)
結語
在大型模型時代,當所有人都追求「更大、更強」時,SLOT用一個簡單得「異想天開」的想法證明:有時候,讓模型在回答前先「理解」一下問題,就能帶來驚人的效果。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com