ICML 2025 | 無需訓練，即時對齊大模型偏好

TPO：推理時即時偏好對齊的新方案

為了讓大模型（LLM）的行為更符合人類預期，一系列訓練時對齊方法（例如RLHF和DPO）通過微調模型參數來實現偏好優化。然而，這種“訓練時對齊”模式不僅耗時耗力，而且一旦偏好發生變化（比如安全標準更新），就得從頭開始再訓練一次。這種方式在應對變化需求時顯得十分被動。

有沒有一種方法，可以跳過繁瑣的重新訓練，讓模型在推理時就快速對齊人類偏好呢？最近，上海人工智能實驗室提出 Test-Time Preference Optimization（測試時偏好優化，TPO）。一句話總結：TPO讓大模型在每次回答時通過迭代的文本反饋自行調整輸出，實現了無需更新模型權重的 “即插即用”對齊。不同於RLHF、DPO這類需要離線訓練來優化參數的做法，TPO完全在推理過程中完成偏好優化，模型參數保持不變。研究顯示，TPO作為一種實用的輕量級替代方案，能夠在推理時動態地將模型輸出對齊人類偏好。

論文標題：Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback論文地址：arxiv.org/abs/2501.12895Huggingface地址：https://huggingface.co/papers/2501.12895Github地址：https://github.com/yafuly/TPO

TPO = 文本形式的梯度下降

TPO的核心直覺是讓模型一邊生成回答，一邊根據反饋不斷改進，本質上相當於在文本空間執行了一次“梯度下降”優化。簡單來說，模型利用自身的指令理解與推理能力，把數值化的獎勵訊號翻譯成可讀的文本建議，進而調整後續回答方向。整個過程無需顯式計算梯度或更新權重，而是在自然語言交互中完成對輸出的優化。

圖表 1展示了 TPO 的三個關鍵步驟，模擬語言化的“梯度下降”過程。

如圖1所示，TPO的對齊過程包含類似梯度優化的幾個步驟：模型先產生初步回答，然後獲取反饋訊號，生成改進建議，最後據此更新回答，並可視需要重複迭代。具體過程如下：

候選回答生成：給定用戶查詢，語言模型會先生成多個初始回答，並通過預先訓練好的獎勵模型（reward model）對這些回答打分。我們選出得分最高的回答作為“優選”（chosen）和得分最低的回答作為“棄選”（rejected）。

文本損失計算：接下來，令LLM將優選回答和棄選回答放在一起進行比較。通過一個精心設計的提示（prompt），模型會產出一段點評，指出為何優選回答比棄選回答好，以及後者存在哪些不足。這相當於計算出了一個“文本損失”：以自然語言描述了當前回答偏離人類偏好的程度和原因。

文本梯度計算：然後，再通過新的提示要求模型根據上述點評提出改進建議。這些建議可以看作是針對回答的“文本梯度”——指明了如何調整回答可以更好地滿足偏好。

更新回答：最後，模型參考這些文本建議，生成一個或多個改進後的新回答。新的回答通常在之前薄弱的方面有所加強，相當於沿著文本梯度邁出了一步完成對輸出的更新。

通過上述循環，模型的輸出會被逐步“打磨”得更加符合獎勵模型（也即人類偏好代理）的要求。可以看到，這一流程其實正對應了傳統梯度下降的“三步走”：計算損失 → 計算梯度 → 更新參數，只不過在TPO中，這三步都由模型在文本層面完成了。不同於數值優化方法直接修改模型的權重，TPO是在固定模型參數的前提下優化輸出內容，因此更加安全可控。從某種角度看，TPO讓模型在推理階段進行了一次“小規模的自我訓練”，利用自然語言反饋挖掘了預訓練模型自身的潛力。

對齊效果與性能表現

作者在多個基準數據集上對TPO進行了評測，涵蓋了從指令跟隨（如 AlpacaEval、Arena）、偏好對齊（如 HH-RLHF 數據集）、安全性（如 BeaverTails 和 XSTest）到數學（MATH-500）等多方面的任務。結果顯示，只需要極少的迭代步數（例如兩輪TPO優化），無論是原本未對齊的基准模型還是已經過RLHF對齊的模型，都能取得顯著的性能提升。

圖表 2展示了TPO在推理過程中對模型輸出品質的提升效果（縱軸為獎勵模型打分，橫軸為TPO迭代步數）。

如圖2所示，在TPO迭代過程中，未對齊模型（SFT）的獎勵得分曲線會逐步上升並超過已對齊模型（Instruct）的水平（圖中虛線對應模型不經TPO時的固定得分基線）。與此同時，即使對於原本已經對齊過的模型（Instruct模型），TPO依然能夠進一步提升其輸出品質。

圖表 3：TPO在未經訓練對齊模型（SFT）上的性能表現。

尤其值得注意的是，一個原本未經過任何偏好訓練的 Llama-3.1-70B-SFT 基礎模型，在僅僅兩步 TPO 優化後，其偏好得分在幾乎所有評測基準上都超越了經過強化學習對齊的同款模型 Llama-3.1-70B-Instruct。

圖表 4：TPO在已對齊模型上的性能表現。

此外，在已經經過對齊後的模型上，TPO也能進一步提升模型在各類任務上的表現，而無需額外訓練。

“寬深結合”的測試時拓展範式

TPO 的一個核心優勢，是它不僅可以在推理階段實現即時對齊，更提供了靈活可調的“寬度 + 深度”推理拓展策略（test-time scaling），即通過控制每輪的候選生成數量（寬度）與迭代優化輪數（深度），顯著提升輸出品質與偏好一致性。

這在實踐中尤為關鍵：很多時候，我們並不希望或無法一開始就生成幾十上百個候選（如 BoN-60），例如顯存不支持；但如果能以較小的資源代價換取逐步優化效果，無疑更具實用價值。

論文通過系統實驗分析了寬度和深度的作用：

采樣寬度（N）決定了每輪優化前可供選擇的回答多樣性。寬度越大，初始候選越豐富，越容易獲得高品質基礎版本，然而要求更大的顯存空間；

優化深度（D）控制了TPO能夠反復打磨輸出的輪數。深度增加意味著模型有更多機會消化反饋並改進生成，然而需要更多的迭代時間；

寬與深具有互補性：寬度加快收斂，深度增強精細度，兩者配合，可在保持成本可控的前提下取得更優效果。

圖表 5：左圖：搜索寬度對TPO的影響；右圖：TPO對BoN的勝率。

如圖5所示，左圖展示了在 HH-RLHF 數據集上，TPO 在不同寬度設置下的訓練曲線。可以看出，從 N=5 到 N=20，TPO 的表現持續提升，並遠優於“僅通過修改”的順序優化方法（Sequential Revision）。更令人印象深刻的是：只用兩輪 TPO、每輪生成5個回答（D2-N5），就已足以超過需要采樣60個樣本的 Best-of-N（BoN-60）策略。

這表明：與其一開始就窮舉生成多個候選，不如通過反饋引導做“聰明的迭代”。TPO 的“寬深結合”機制，本質上是一種高效的測試時推理優化方式，為 LLM 在資源受限環境下的性能釋放提供了新路徑。

總結與展望：推理，也可以成為對齊的起點

TPO展示了一種輕量、靈活、可解釋的新範式：不調參數，只用自然語言反饋，就能在推理階段實現偏好優化。相比於訓練時對齊方法，TPO僅需使用極少計算開銷。在已對齊模型上繼續提升，在未對齊模型上實現“即插即用”的快速進化， TPO不僅降低了對齊門檻，也拓展了LLM推理能力的邊界。

更重要的是，TPO背後思想具有高度可擴展性：將優化過程“語言化”，再由模型自主理解與執行。這為未來LLM的可控性、安全性乃至個性化定制提供了通用路徑。

展望未來，我們相信TPO只是一個開始。推理階段的優化、調試與反饋機制還大有可為，而大語言模型“聽得懂反饋、改得了輸出”的能力，也將在這一過程中被進一步激發出來。

對齊，不一定是訓練的終點；也可以是推理的起點。

備註：昵稱-學校/公司-方向/會議(eg.ACL)，進入技術/投稿群

id：DLNLPer，記得備註呦

ICML 2025 | 無需訓練，即時對齊大模型偏好

分享短網址