出典 | PaperWeekly
過去2年間、アラインメント(alignment)されたほぼすべての大規模言語モデル—GPT-4からClaude、DeepSeekまで—は、同様の症状を示してきました。回答はますます似通い、口調はますます統一され、創造性は希薄になってきています。モデルの規模や訓練の精密さに関わらず、それらは「平均的な回答」の限界へと押し込まれているようです。
ノースイースタン大学、スタンフォード大学Manningチーム、ウェストバージニア大学の研究者たちは、これがアルゴリズムの劣化ではなく、後訓練段階で広く見られるシステム的な収縮であることに注目しました。モデルが「安全にアラインメントされる」ほど、出力は均質化する傾向にあるのです。
このため、彼らは再訓練不要の新しい手法—Verbalized Sampling(言語化サンプリング、VS)—を提案しました。これはモデルのパラメータを変更せず、プロンプトを通じてモデルが複数の候補回答を生成する際に、自身の心中の確率分布を明示的に述べさせるものです。
例えば:「考えられる回答を5つ生成し、それぞれの回答についてあなたが考える確率を示してください。」
これにより、モデルは「最も可能性の高い回答」を一つだけ提供するのではなく、「まだ正しい可能性がある」と考える世界の一部を直接示すことになります。
システム評価において、VSは創造的ライティングタスクでの出力多様性を1.6~2.1倍向上させ、人間による評価スコアを25.7%高め、プリ・アラインメントの多様性の約66.8%を回復させました。これらの改善はすべて、追加の訓練を一切必要としません。
論文タイトル:Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
論文リンク:https://arxiv.org/abs/2510.01171
プロジェクトホームページ:https://www.verbalized-sampling.com/
コードリンク:https://github.com/CHATS-lab/verbalized-sampling
研究背景
後訓練段階では、言語モデルは通常RLHFによってアラインメントされ、生成結果が人間の判断により一致するようにします。しかし、このプロセスは中立ではありません。
著者らは、選好アノテーションにおける選択行動が、無意識のうちに典型性バイアス (Typicality Bias) を導入することを示唆しています。これは、アノテーターが事実性や論理的正確性のみに基づいて判断するのではなく、言語的に親しみやすく自然な回答を選択する傾向があることを意味します。
このバイアスはモデルに吸収された後、報酬モデリングにおいて継続的に増幅されます。このプロセスを形式的に分析するために、本論文では以下の報酬関数を定義しています:
ここで、R(y|x)はタスクの真の効用、p_B(y|x)はベースモデルの参照分布、αは人間が典型性に抱く選好の強度、Z_xは正規化定数を表します。
α > 0 の場合、モデルは報酬学習において、ベースモデルによって高い尤度と判断された出力を体系的に選好します。
標準的なRLHFフレームワークの下では、ポリシー π の最適化目標は次のとおりです:
ここで β は探索の強度を制御します。
式 (1) を式 (2) に代入すると、閉形式の最適解が得られます:
この式は選好増幅の数学的メカニズムを明らかにしています。α > 0 の場合、最適ポリシー分布 p_π(y|x) は参照分布 p_B(y|x) と比較して指数関数的に増幅され、確率質量がより高い尤度の領域に集中し、生成分布が鋭化(sharpened)されます。αが増加するにつれて、分布エントロピーは継続的に減少し、モデル出力は徐々に均質化します。
論文は、HELPSTEERなどの選好データセットの実証分析を通じてこのメカニズムをさらに検証しています。回答の正確性を制御した上で、人間のアノテーターはベースモデルの尤度が高い回答を依然として著しく選好しました。線形フィッティングによって推定された典型性重み α の範囲は約0.5〜0.7であり、このバイアスが広く存在することを示しています。
図1. α > 0 の場合、報酬関数により分布は指数関数的に鋭化され、出力空間は少数の高尤度モードに収縮する。
したがって、著者らは中核的な見解を提示しています。モード崩壊はアルゴリズムの偶発的な問題や最適化の欠陥ではなく、人間の選好データに固有の産物であると。典型性バイアスは、言語モデルが「人間らしくなる」ことを追求する過程で、生成多様性を徐々に失わせているのです。
Verbalized Samplingメカニズム
典型性バイアスが分布の鋭化を引き起こすメカニズムを理解した後、著者らは推論段階で、自身の分布を言語で表現するサンプリング手法、Verbalized Sampling (VS) をさらに提案しました。その目標はモデルを再訓練することではなく、モデルが生成時に「自身が認識する多様性」を積極的に「表現する」ことです。
2.1 コアアイデア
従来のサンプリングは、モデル内部のlogits分布に依存してランダムに抽出を行います。温度パラメータ T が高いほど分布は平坦になり多様性が強まり、T が低いほど出力は集中します。しかし、この温度調整は数学的なノイズ制御に過ぎず、モデルの「思考方法」を真に変化させるものではありません。つまり、モデルは自身がどこに不確実性を持っているかを依然として認識できません。
Verbalized Sampling の鍵は、モデルにこの分布を言語で「言語化(verbalize)」させることです。研究者たちはシンプルなプロンプトを使ってモデルに次のように要求します:
Generate N possible responses to the question below.For each response, assign a probability that representshow likely you think it is correct or reasonable.
モデルはN個の候補回答を生成し、それぞれの回答に対して明示的な確率を提供するよう誘導されます。例えば:
(1) 回答 A —— 「これはおそらく0.6の確率で正しいと思います。」
(2) 回答 B —— 「…0.25の確率。」
(3) 回答 C —— 「…0.15の確率。」
これらの言語化された確率 (verbalized probabilities) はモデル自身によって推定され、その後、操作可能なサンプリング重みのセットに正規化されます。最終的な出力は、隠れた logits からランダムに選ばれたサンプルではなく、モデル自身が「宣言した」分布から再サンプリングされたものとなります。
図2. モデルは複数の候補を生成し、それぞれの回答の確率を言語化するよう求められる。
2.2 言語化された自己較正
このプロセスを通じて、モデルは生成時に一種の「言語化された較正」を行います。それは、「どのような回答が可能か」と「それぞれについてどれくらいの自信があるか」を同時に判断する必要があるからです。
著者らは、これらの言語化された確率がモデル内部の信頼度と高い相関があることを発見しました。モデルが70%の確信度を自己評価した場合、実際の正解率はしばしば0.7に近くなります。したがって、VSは多様性を回復させるだけでなく、生成信頼度の一貫性も向上させます。
研究者たちはさらに、「上限制約戦略」を提案しました。言語化された確率が特定の閾値(例:0.3)を超えた場合、それを再正規化することで、モデルが末尾の候補により多くの重みを割り当てることを促します。この制約は、言語レベルで「鋭化指数」を低下させることと同等であり、背景部分で α > 0 によって引き起こされる分布集中に効果的に対抗します。
2.3 温度サンプリングとの比較
実験において、著者らはVSと従来の温度サンプリングを体系的に比較しました。結果として、VSは事実性および安全性を低下させることなく、生成多様性を著しく向上させることが示されました。クリエイティブライティングタスクでは、VSは多様性を1.6~2.1倍向上させ、人間による評価指標では25.7%の増加をもたらし、ベースモデルの元の分布エントロピーの約66.8%を回復させました。
図3. VSは言語化された分布再サンプリングにより、多様性と事実性の間でより堅牢なバランスを実現する。
2.4 実装特性
Verbalized Samplingは完全に推論段階で完結します。再訓練、パラメータ変更、追加の報酬モデルは不要です。その実装はプロンプトテンプレートに指示を追加するだけで、モデルが生成過程で確率を言語化し、それに基づいてサンプリングすることを可能にします。このプロセスは軽量で解釈可能であるだけでなく、任意のアラインメントされた言語モデルと直接組み合わせることも可能です。
実験結果
Verbalized Sampling (VS) は、複数のオープンエンド生成タスクで体系的に検証され、事実性と安全性を犠牲にすることなく、出力多様性を著しく向上させることが示されました。実験は、創造的ライティング、オープン質問応答、ソーシャルシミュレーション、合成データ生成などの典型的なシナリオを対象とし、すべて同じモデルとプロンプト条件下で実施され、公平な比較が保証されています。
3.1 創造的ライティング
詩、物語、ジョークの3つのタスクにおいて、VS-Standardおよびその変種(VS-CoT、VS-Multi)は、Direct / Sequenceなどのベースラインと比較して、意味的多様性(約1.6~2.1倍)を著しく向上させ、人間評価で25.7%の改善をもたらしました。
同時に、VS-CoT / VS-Multiは「多様性—品質」のトレードオフにおいてパレートフロンティアに近づきました。プロンプトで確率閾値を設定することにより、多様性は必要に応じて調整可能です(閾値が低いほど、より大胆な探索が行われます)。
図4. a–cは3つのタスクにおける平均的な意味的多様性の比較;dは多様性—品質のトレードオフを示す;e–fはより大きなモデルがVSからより大きな利益を得ることを示す;g–iは「確率閾値」によって調整可能な多様性を示す。
3.2 後訓練段階
Tulu-3シリーズ(SFT、DPO、RLVR段階をカバー)の縦断評価では、ベースライン手法はアラインメントの進行とともに顕著な崩壊を示しました。一方、VSは各段階で30%+の多様性を維持し、Post-DPOノードではDirectと比較して約182.6%の改善を達成し、ベースモデルの元の多様性の約66.8%を回復させました。
これは、VSが単なる「複数バージョンを生成する」プロンプトの技巧ではなく、後訓練プロセスにおける分布の鋭化に対抗する効果的なメカニズムであることを示しています。
図5. SFT→DPO→RLVRの訓練過程に沿って、VSは多様性崩壊を継続的に緩和する。
3.3 直感的な例
「馬に乗った宇宙飛行士」という同じテーマを与えられた場合、Directはしばしば狭い写実的なスタイルに収束します。一方、VSの記述は、水彩画、レトロネオン、バロック油絵など、まったく異なる物語的・視覚的アプローチに自然に分岐し、スタイルやトーンを超えた顕著な多様性を示します。
図6. 同一テーマの視覚化比較:Directは単一スタイル、VSは幅広い多様性を示す。
VSの向上は、「モデルにまずその分布を表現させ、それに基づいて選択させる」ことから来ており、単にランダム温度を上げることからではありません。それは、アラインメントによって圧縮された創造性を、解釈可能で制御可能な方法で読者が知覚できるレベルに確実に引き戻します。
自分で試す
著者らは研究者や開発者がVerbalized Sampling (VS) の効果を自ら体験することを奨励しており、完全なColabエントリとサンプルタスクを提供しています。これらは直接実行して結果を視覚化できます。
以下のColabを通じて、ワンクリックでVSを体験できます:https://colab.research.google.com/drive/1UDk4W5w6gF0dQ9Tpu0sPQethEht51GXL#offline=true&sandboxMode=true
コード例:
# Minimal VS examplefrom verbalized_sampling import sample # pip install verbalized-samplingprompt = "Write a short story about a bear."# Generate k responses with verbalized probabilitiesresponses = sample(prompt, k=5, return_probs=True)# responses is an iterable of (text, probability) pairsfor i, (text, p) in enumerate(responses, 1):print(f" {i}. p={p:.3f} → {text[:100]}…")
このColabは以下をサポートしています:
任意のOpenAI / Anthropic / Geminiモデルの使用;
VSモード(Standard / CoT / Multi)の切り替え;
生成数と確率閾値の制御;
「多様性—品質」曲線とサンプル分布の視覚化。
例1:システムプロンプト
You are a helpful assistant. For each query, please generate a set of five possible responses, each within a separate <response> tag. Responses should each include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.
例2:チャットインターフェースで直接使用
以下のプロンプトをチャットインターフェース(ChatGPT、Claude、Geminiなど)に貼り付けて使用します:
Generate 10 responses to the user query, each within a separate <response> tag. Each response should be 50-100 words.Each <response> must include a <text> and a numeric <probability>. Randomly sample the responses from the full distribution.<user_query>Write a short story about a bear.</user_query>
実行後、モデルが確率アノテーション付きで10の物語バージョンを生成するのを見ることができます。これは「森の熊」から「税理士の熊」、そして「星間熊」まで、異なるスタイル、異なる設定でありながら、複数の可能性に対するモデルの明示的な推定をすべて保持しています。
例3:APIコールによる使用
以下のcurlコマンドを使用して、OpenAI APIを介してVerbalized Sampling (VS-Standard) を体験してください。gpt-4.1 をテストしたい任意のモデルバージョンに置き換えることができます。
export OPENAI_API_KEY="your_openai_key"curl https://api.openai.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{ "model": "gpt-4.1", "messages": [ { "role": "system", "content": "Generate 10 responses to the input prompt, each within a separate <response> tag. Each response should be 50-100 words. Each <response> must include a <text> and a numeric <probability>. Randomly sample the responses from the full distribution. Return ONLY the responses, with no additional explanations or text." }, { "role": "user", "content": "Write a short story about a bear." } ], "temperature": 1.0 }'
結び
Verbalized Sampling (VS) は、非常に示唆に富む道を提示しました。パラメータを調整したり、追加の訓練を必要とせず、プロンプトの設計だけで、モデルはアラインメントプロセスによって圧縮された生成空間を取り戻すことができます。これは、「大規模モデルの出力が一体何を意味するのか」を再考させます。それは最適化された回答だけでなく、不確実性のモデル自身の表現でもあるのです。
明示的な言語化を通じて、モデルは事実の正確性と表現の多様性の間で新たなバランスを見つけることができます。信頼性を保ちつつ、思考の幅広さを示すことができるのです。アラインメントと創造性の間の緊張関係において、VSは実用的な工学的解決策を提供します。これは、モデルの能力向上には必ずしもより大きなネットワークやより高価な訓練が必要ではなく、より賢い質問の仕方からもたらされることを思い出させてくれます。