獎勵模型新革命！SWIFT不讀文本讀「心聲」，打造又快又強又省錢的AI裁判

前言

你可能聽過一種方法叫「Best-of-N」 (或稱「擇優選擇」)。簡單來說，就是讓模型針對一個問題生成N個不同的答案，然後請一位「裁判」來挑出最好的那一個。這方法效果不錯，但問題是——這位「裁判」太「貴」了！

通常，這個「裁判」本身也是一個巨大的類神經網路，我們稱之為「獎勵模型」(Reward Model)。訓練和運行它，需要海量的運算資源與資料，簡直就是「大力出奇蹟」的典範。這不僅成本高昂，速度還慢，極大地限制了技術的普及與應用。

有沒有一種更聰明、更有效率的辦法呢？來自上海交通大學、新加坡國立大學與伊利諾大學芝加哥分校的研究者們給出了一個驚豔的答案。他們發表了一篇名為「《從LLM隱藏狀態中挖掘內在獎勵，實現高效的Best-of-N取樣》」的論文，提出了一種全新的輕量級技術——「SWIFT」。

SWIFT論文圖

SWIFT程式碼庫圖

傳統方法的困境

想像一下，你讓一個學生（LLM）解一道複雜的數學題，為了保證正確率，你讓他寫出8種不同的解法（Best-of-8）。

傳統方法是，你再花大價錢請來一個博士專家團隊（大型獎勵模型），讓他們逐一閱讀這8份解題步驟（文本），然後打分選出最佳答案。這個專家團隊雖然專業，但請他們出馬的代價太高，而且每次都要等他們開會討論很久。

這就是現有Best-of-N方法的痛點：

● 參數量巨大：獎勵模型動輒數十億甚至上百億參數，堪比另一個LLM。

● 資料飢渴：需要海量的標註資料來訓練「裁判」的眼光。

● 運算昂貴：無論是訓練還是推論（打分），都消耗巨大的運算資源與時間。

SWIFT的奇思妙想

SWIFT另闢蹊徑。它認為，與其花大錢請「外援」，為什麼不聽聽學生自己內心的「小九九」呢？

當LLM在一步步生成答案時，它的內部會產生大量的「隱藏狀態」(Hidden States)。你可以把它理解為模型在每個瞬間的「思考過程」或「腦電波訊號」。這些訊號蘊含了模型對當前生成內容的不確定性、自信度等豐富資訊。

SWIFT的核心思想就是：不再依賴外部的文本，而是直接「監聽」模型內部的隱藏狀態，來判斷它對自己推論過程的信心。它的做法非常巧妙和高效：

1. 提取訊號：對於生成答案中的每一個詞（token），SWIFT會提取出它在LLM所有網路層中的隱藏狀態。

2. 線性打分：它使用一個極度輕量級的線性模型（僅包含一個權重矩陣和偏置），為每個詞計算出兩個值：一個「獎勵分數」和一個「重要性權重」（門控值）。

3. 加權求和：最後，將所有詞的「獎勵分數」根據其「重要性權重」進行加權平均，得到整個答案的最終得分。

這個過程就像一個高明的讀心術大師，他不僅能感知到學生在關鍵步驟上的信心波動，還能判斷出哪些步驟對最終答案更重要，從而給出精準的評價。

SWIFT究竟有多「厲害」？數據會說話！

是騾子是馬，拉出來遛遛。SWIFT的效果具體怎麼樣，請見數據：

1. 效率：真正的「四兩撥千斤」

這是SWIFT最耀眼的優勢。研究者們在論文中給出了震撼的對比（見下表）：

SWIFT與傳統模型效率對比圖

沒錯，你沒看錯！SWIFT的參數量不到傳統模型的0.005%，訓練所需的資料也少了數個數量級。在實際執行中，它的評分速度與運算量（FLOPs）比傳統模型快了數百甚至數千倍！這意味著，過去可能需要高端伺服器集群才能跑起來的任務，現在在個人設備上就能輕鬆搞定。

2. 準確率：不僅快，而且更強！

你可能會想，這麼小的模型，效果肯定會打折扣吧？恰恰相反！在多個標準測試集上（如數學推論MATH、GSM8K，程式碼理解等），SWIFT在Best-of-N任務中的準確率全面超越了那些龐大體量的基準模型。

SWIFT在測試集上的準確率對比圖

這證明了「內在訊號」比單純分析外部文本更有效。LLM的「內心獨白」裡，藏著判斷對錯的關鍵線索。

3. 靈活性與潛力：玩法多樣，潛力無限

SWIFT的強大遠不止於此：

● 可擴展性：給它更多訓練資料，它的性能還會持續提升。

● 適用封閉模型：對於那些不開放隱藏狀態的商業模型（如GPT-4），SWIFT依然可以透過它們的Logits（輸出機率）進行訓練，同樣表現出色。

● 強強聯手：SWIFT可以和傳統的獎勵模型結合使用，進一步提升性能，實現「1+1 > 2」的效果。

● 極致效率：甚至不需要使用LLM所有層的隱藏狀態，只用其中幾層的訊號，就能在保持高性能的同時，讓模型變得更小更快。

結語：AI發展的新啟示

SWIFT的出現，無疑為大型語言模型領域的發展提供了一個全新的、優雅高效的範式。它告訴我們，在追求「更大、更強」的道路之外，還存在著另一條智慧的捷徑——向內探索，挖掘模型自身蘊含的寶藏。

這項工作不僅極大地降低了高級AI技術的使用門檻，讓更多開發者和中小型企業也能享受到技術紅利，也為建構更綠色、更經濟、更高效的AI系統指明了方向。或許，AI的下一次進化，不完全在於堆疊更多的參數，而是在於我們是否能更深刻地理解和利用模型內部的「心聲」。