GPT 越來越保守?史丹佛 Manning 團隊提出 Verbalized Sampling,讓模型重新「多想一點」

文章首圖

來源 | PaperWeekly

過去兩年,幾乎所有經過對齊(alignment)的大型語言模型——從 GPT-4 到 Claude,再到 DeepSeek——都出現了相似的症狀:回答越來越像、語氣越來越統一、創意越來越稀薄。無論模型多大、訓練多精良,它們似乎都在被推向一個「平均答案」的極限。

來自東北大學 (Northeastern University)、史丹佛大學 Manning 團隊與西維吉尼亞大學 (West Virginia University) 的研究人員注意到,這並非演算法退化,而是後訓練階段普遍存在的一種系統性收縮:模型越被「安全對齊」,輸出越趨於同質化。

為此,他們提出了一種無需再訓練的新方法——Verbalized Sampling(口語化取樣,簡稱 VS)。它不改變模型參數,只透過提示 (prompt) 讓模型在生成多個候選答案時,顯式地說出自己心中的機率分佈。

例如:「請生成 5 個可能的回答,並為每個回答提供您認為的機率。」

這樣一來,模型不再只給出一個「最可能的答案」,而是直接展現它認為「還可能正確」的那一部分世界。

在系統評測中,VS 讓模型在創意寫作任務中的輸出多樣性提升 1.6–2.1 倍,人工評價分數提高 25.7%,並恢復了約 66.8% 的預對齊多樣性——所有這些改進,都不需要任何額外訓練。

論文結果圖

論文題目:Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

論文連結:https://arxiv.org/abs/2510.01171

專案主頁:https://www.verbalized-sampling.com/

程式碼連結:https://github.com/CHATS-lab/verbalized-sampling

研究背景

在後訓練階段,語言模型通常透過 RLHF 進行對齊,使生成結果更符合人類判斷。然而,這一過程並非中立。

作者指出,偏好標註中的選擇行為會在無形中引入一種典型性偏差 (Typicality Bias)——即標註者更傾向於選擇那些語言上更熟悉、更自然的答案,而非僅依據事實性或邏輯正確性進行判斷。

這種偏差被模型吸收後,會在獎勵建模中持續放大。為了形式化分析這一過程,論文定義了如下獎勵函數:

獎勵函數數學公式

其中,R(y|x) 表示任務真實效用,p_B(y|x) 為基礎模型的參考分佈,α 表示人類對典型性的偏好強度,Z_x 為歸一化常數。

當 α > 0 時,模型在獎勵學習中會系統性地偏好那些由基礎模型判為高似然的輸出。

在標準 RLHF 框架下,對策略 π 的最佳化目標為:

策略最佳化目標數學公式

其中 β 控制探索強度。

將式 (1) 代入式 (2),可得閉式最佳解:

閉式最佳解數學公式

該式揭示了偏好放大的數學機制:當 α > 0 時,最佳策略分佈 p_π(y|x) 相比參考分佈 p_B(y|x) 被冪指數放大,即機率質量更集中於高似然區域,導致生成分佈被銳化 (sharpened)。隨著 α 增大,分佈熵持續下降,模型輸出逐漸趨同。

論文透過對 HELPSTEER 等偏好資料集的實證分析進一步驗證了這一機制:在控制回答正確性的前提下,人類標註者仍顯著偏好基礎模型似然更高的回答。透過線性擬合估算出的典型性權重 α 範圍約為 0.5–0.7,說明這一偏差普遍存在。

圖1. 當 α > 0 時,獎勵函數導致分佈被冪指數銳化,輸出空間收縮為少數高似然模式。

圖1. 當 α > 0 時,獎勵函數導致分佈被冪指數銳化,輸出空間收縮為少數高似然模式。

由此,作者提出一個核心觀點:模式崩塌 (mode collapse) 並非演算法偶然或最佳化缺陷,而是人類偏好資料固有的產物。典型性偏差使語言模型在追求「更像人」的過程中,逐漸失去了生成的多樣性。

Verbalized Sampling 機制

在理解了典型性偏差導致分佈銳化的機制後,作者進一步提出一種在推論階段、以語言表達自身分佈的取樣方式——Verbalized Sampling (VS)。它的目標不是重新訓練模型,而是讓模型在生成時主動「表達出自己認為的多樣性」。

2.1 核心思想

傳統取樣依賴模型內部的 logits 分佈進行隨機抽取。溫度參數 T 越高,分佈越平緩,多樣性越強;T 越低,輸出越集中。然而,這種溫度調整只是數學上的雜訊控制,並未真正改變模型的「思考方式」——它仍然無法意識到自己在何處有不確定性。

Verbalized Sampling 的關鍵在於讓模型用語言來 verbalize (口語化表達) 這一分佈。研究人員透過簡單的提示詞 (prompt) 要求模型:

Generate N possible responses to the question below.For each response, assign a probability that representshow likely you think it is correct or reasonable.

模型被引導生成 N 個候選回答,並為每個回答提供一個顯式機率。例如:

(1) 答案 A —— 「我認為這很可能正確,機率為 0.6。」

(2) 答案 B —— 「… 機率為 0.25。」

(3) 答案 C —— 「… 機率為 0.15。」

這些口語化機率 (verbalized probabilities) 由模型自身估計,隨後被歸一化為一組可操作的取樣權重。最終輸出不再是從隱藏 logits 中隨機選出的樣本,而是從模型自己「聲明」的分佈中重新取樣。

圖2. 模型被要求生成多個候選答案並口語化表達每個答案的機率。

圖2. 模型被要求生成多個候選答案並口語化表達每個答案的機率。

2.2 語言化的自我校準

透過這一過程,模型在生成時會進行一種「語言化校準」:它需要同時判斷「有哪些可能的答案」以及「我對它們各自有多大信心」。

作者發現,這些口語化機率與模型內部置信度高度相關——當模型自評有 70% 把握時,其實際正確率往往接近 0.7。因此,VS 不僅恢復了多樣性,也提升了生成置信度的一致性。

研究人員進一步提出了一個「上限約束策略」:當口語化機率超過某閾值 (例如 0.3) 時,對其進行重新歸一化,以鼓勵模型在尾部候選上分配更多權重。這一約束等價於在語言層面降低「銳化指數」,從而有效對抗背景部分中由 α > 0 引發的分佈集中。

2.3 與溫度取樣的對比

在實驗中,作者將 VS 與傳統溫度取樣進行系統比較。結果表明,VS 能夠在不降低事實性與安全性的前提下顯著提升生成多樣性。在創意寫作任務上,VS 實現 1.6–2.1 倍的多樣性提升;在人工評估指標上提高 25.7%,並恢復 66.8% 的基礎模型原始分佈熵。

圖3. VS 透過語言化分佈重新取樣,在多樣性與事實性之間實現更穩健的平衡。

圖3. VS 透過語言化分佈重新取樣,在多樣性與事實性之間實現更穩健的平衡。

2.4 實現特性

Verbalized Sampling 完全在推論階段完成:無需再訓練、無需修改參數、無需額外獎勵模型。其實現只需在提示模板中添加一段指令,使模型在生成過程中口語化表達機率並據此取樣。這一過程不僅輕量、可解釋,也能與任意對齊後的語言模型直接結合。

實驗結果

Verbalized Sampling (VS) 在多個開放式生成任務中被系統性驗證,結果顯示它能在不犧牲事實性與安全性的前提下顯著提升輸出多樣性。實驗涵蓋創意寫作、開放問答、社交模擬與合成資料生成等典型場景,全部在相同模型與提示條件下進行,以確保比較公平。

3.1 創意寫作

在詩歌、故事、笑話三項任務上,VS-Standard 及其變體 (VS-CoT、VS-Multi) 相較 Direct / Sequence 等基準方法顯著提升語義多樣性 (約 1.6–2.1 倍),並帶來 25.7% 的人工評測增益。

同時,VS-CoT / VS-Multi 在「多樣性—品質」權衡上更接近帕累托前沿;透過在提示中設定機率閾值,多樣性還可按需上調 (閾值越低,探索越大膽)。

圖4. a–c 三任務的平均語義多樣性對比;d 展示多樣性—品質權衡;e–f 表明更大模型從 VS 中獲益更明顯;g–i 體現「機率閾值」帶來的可調多樣性。

圖4. a–c 三任務的平均語義多樣性對比;d 展示多樣性—品質權衡;e–f 表明更大模型從 VS 中獲益更明顯;g–i 體現「機率閾值」帶來的可調多樣性。

3.2 後訓練階段

在 Tulu-3 系列 (涵蓋 SFT、DPO、RLVR 階段) 的縱向評估中,基準方法隨對齊推進出現顯著坍縮;VS 則在各階段保持 30%+ 的多樣性,在 Post-DPO 節點相對 Direct 提升約 182.6%,並恢復約 66.8% 的基礎模型原始多樣性。

這說明 VS 不只是「多寫幾版」的提示技巧,而是能在後訓練流程中對抗分佈銳化的有效機制。

圖5. 沿 SFT→DPO→RLVR 的訓練進程,VS 持續緩解多樣性塌縮。

圖5. 沿 SFT→DPO→RLVR 的訓練進程,VS 持續緩解多樣性塌縮。

3.3 直觀示例

給定同一主題「騎馬的太空人」,Direct 往往收斂到窄域的寫實風格;VS 的描述則自然分岔到水彩、復古霓虹、巴洛克油畫等截然不同的敘事與視覺取向,展現出跨風格、跨語氣的顯著多樣性。

圖6. 同題可視化對比:Direct 風格單一,VS 呈現廣域多樣性。

圖6. 同題可視化對比:Direct 風格單一,VS 呈現廣域多樣性。

VS 的提升來自「讓模型先表達自己的分佈,再據此選擇」,而非單純提高隨機溫度。它以可解釋、可控的方式,將被對齊壓縮的創造力穩穩拉回到讀者可感知的層面。

親自嘗試

作者鼓勵研究人員和開發者親自體驗 Verbalized Sampling (VS) 的效果,並提供了完整的 Colab 入口與示例任務,可以直接運行並視覺化結果。

您可以透過以下 Colab 一鍵啟動體驗 VS:https://colab.research.google.com/drive/1UDk4W5w6gF0dQ9Tpu0sPQethEht51GXL#offline=true&sandboxMode=true

程式碼範例:

# Minimal VS examplefrom verbalized_sampling import sample # pip install verbalized-samplingprompt = "Write a short story about a bear."# Generate k responses with verbalized probabilitiesresponses = sample(prompt, k=5, return_probs=True)# responses is an iterable of (text, probability) pairsfor i, (text, p) in enumerate(responses, 1):print(f" {i}. p={p:.3f} → {text[:100]}…")

該 Colab 支援:

使用任意 OpenAI / Anthropic / Gemini 模型;

切換 VS 模式 (Standard / CoT / Multi);

控制生成數量與機率閾值;

視覺化「多樣性—品質」曲線與樣本分佈。

示例一:系統提示詞

You are a helpful assistant. For each query, please generate a set of five possible responses, each within a separate <response> tag. Responses should each include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.

示例二:在聊天介面中直接使用

將以下提示詞貼到聊天介面 (ChatGPT、Claude、Gemini 等) 中使用:

Generate 10 responses to the user query, each within a separate <response> tag. Each response should be 50-100 words.Each <response> must include a <text> and a numeric <probability>. Randomly sample the responses from the full distribution.<user_query>Write a short story about a bear.</user_query>

運行後,您將看到模型生成 10 個帶有機率標註的故事版本——從「森林裡的熊」到「稅務會計熊」再到「星際熊」,不同樣式、不同設定,但都保留了模型對多種可能性的顯式估計。

示例三:透過 API 呼叫

使用以下 curl 命令,透過 OpenAI API 體驗 Verbalized Sampling (VS-Standard)。可將 gpt-4.1 替換為任意您希望測試的模型版本。

export OPENAI_API_KEY="your_openai_key"curl https://api.openai.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{ "model": "gpt-4.1", "messages": [ { "role": "system", "content": "Generate 10 responses to the input prompt, each within a separate <response> tag. Each response should be 50-100 words. Each <response> must include a <text> and a numeric <probability>. Randomly sample the responses from the full distribution. Return ONLY the responses, with no additional explanations or text." }, { "role": "user", "content": "Write a short story about a bear." } ], "temperature": 1.0 }'

結語

Verbalized Sampling (VS) 展示了一條極具啟發性的路徑:不必調整參數,也不需要額外訓練,僅憑提示詞設計,就能讓模型重新找回被對齊過程壓縮的生成空間。它讓我們重新思考「大型語言模型的輸出到底代表什麼」——不僅是一個被最佳化出的答案,更是模型對不確定性的表達。

透過顯式口語化表達,模型能夠在事實正確與表達多樣之間找到新的平衡:既保持可靠性,又能展現思維的廣度。在對齊與創造的張力之間,VS 提供了一種務實的工程解決方案。它提醒我們,提升模型能力,不一定要更大的網路或更昂貴的訓練,也可以來自更聰明的提問方式。

主標籤:大型語言模型

次標籤:口語化取樣生成式AI人工智慧對齊模式崩塌


上一篇:NAS新視角:圖神經網路驅動的通用架構空間,卷積與Transformer混合架構性能躍升!

分享短網址