ICML 2025 | トレーニング不要、大規模モデルの好み即時アラインメント

TPO：推論時のオンザフライな選好アラインメントの新手法

大規模言語モデル（LLM）の振る舞いを人間の期待により合致させるため、RLHFやDPOなどの一連の学習時アラインメント手法は、モデルパラメータを微調整することで選好最適化を実現します。しかし、この「学習時アラインメント」モードは時間と労力がかかるだけでなく、選好が変化した場合（例えば安全基準の更新）には、ゼロから再学習し直す必要があります。この方法は、変化する要求に対応する際に非常に受動的です。

煩雑な再学習をスキップし、モデルが推論時に迅速に人間の選好にアラインできる方法は存在しないのでしょうか？最近、上海AIラボはTest-Time Preference Optimization（テスト時選好最適化、TPO）を提案しました。一言でまとめると、TPOはLLMが各応答時に反復的なテキストフィードバックを通じて自ら出力を調整することを可能にし、モデルの重みを更新することなく「プラグアンドプレイ」のアラインメントを実現します。RLHFやDPOのようなパラメータを最適化するためにオフライン学習を必要とするアプローチとは異なり、TPOは選好最適化を推論プロセス中に完全に完了し、モデルパラメータは変更されません。研究によると、TPOは実用的な軽量代替策として、推論時にモデルの出力を人間の選好に動的にアラインできます。

論文タイトル：Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback論文アドレス：arxiv.org/abs/2501.12895Huggingfaceアドレス：https://huggingface.co/papers/2501.12895Githubアドレス：https://github.com/yafuly/TPO

TPO = テキスト形式の勾配降下

TPOの核心的な直感は、モデルが応答を生成しながらフィードバックに基づいて継続的に改善することであり、本質的にはテキスト空間で「勾配降下」最適化を実行することに相当します。簡単に言えば、モデルは自身の指示理解と推論能力を利用して、数値化された報酬信号を読み取り可能なテキスト提案に変換し、その後の応答の方向を調整します。このプロセス全体では、明示的な勾配計算や重みの更新は不要で、自然言語の相互作用によって出力の最適化が完了します。

図1はTPOの3つの主要なステップを示しており、言語ベースの「勾配降下」プロセスをシミュレートしています。

図1に示すように、TPOのアラインメントプロセスは勾配最適化に似た複数のステップを含みます。まずモデルが初期応答を生成し、次にフィードバック信号を取得し、改善提案を生成し、最後にそれに基づいて応答を更新します。必要に応じて繰り返すこともできます。具体的なプロセスは以下の通りです。

候補応答生成：ユーザーからの問い合わせを受け取ると、言語モデルはまず複数の初期応答を生成し、事前に訓練された報酬モデルによってこれらの応答にスコアを付けます。最高スコアの応答を「優選」（chosen）とし、最低スコアの応答を「棄選」（rejected）とします。

テキスト損失計算：次に、LLMは優選応答と棄選応答を比較します。慎重に設計されたプロンプトを通じて、モデルは優選応答が棄選応答よりも優れている理由と、後者にどのような欠点があるかを指摘するコメントを生成します。これは「テキスト損失」を計算することに相当します。すなわち、現在の応答が人間の選好からどれだけ逸脱しているか、その原因を自然言語で記述します。

テキスト勾配計算：その後、新しいプロンプトを使用して、上記のコメントに基づいてモデルに改善提案を求めます。これらの提案は応答に対する「テキスト勾配」と見なすことができます。すなわち、応答をどのように調整すれば選好をよりよく満たせるかを示します。

応答更新：最後に、モデルはこれらのテキスト提案を参考に、一つ以上の改善された新しい応答を生成します。新しい応答は通常、以前の弱点が強化されており、テキスト勾配に沿って一歩進み、出力の更新を完了するのと同等です。

上記サイクルを通じて、モデルの出力は報酬モデル（すなわち人間の選好代理）の要求に一層合致するように徐々に「磨き上げ」られます。このフローは、従来の勾配降下の「三段階」に対応していることがわかります。損失計算 → 勾配計算 → パラメータ更新。TPOではこれら三段階すべてがモデルによってテキストレベルで完了されます。数値最適化手法が直接モデルの重みを変更するのとは異なり、TPOはモデルパラメータを固定したまま出力内容を最適化するため、より安全で制御可能です。ある意味では、TPOは推論段階で「小規模な自己学習」を行い、自然言語フィードバックを活用して事前学習済みモデル自身の潜在能力を引き出します。

アラインメント効果と性能

著者は複数のベンチマークデータセットでTPOを評価しました。これには、命令追従（例：AlpacaEval、Arena）、選好アラインメント（例：HH-RLHFデータセット）、安全性（例：BeaverTails、XSTest）、数学（MATH-500）など、多岐にわたるタスクが含まれます。結果として、わずかな反復ステップ（例えばTPO最適化2ラウンド）だけで、元々アラインされていないベースラインモデルも、RLHFによってアラインされたモデルも、顕著な性能向上を達成できることが示されました。

図2は、TPOによる推論プロセス中のモデル出力品質の改善効果を示しています（縦軸は報酬モデルのスコア、横軸はTPOの反復ステップ数）。

図2に示すように、TPOの反復プロセス中、アラインされていないモデル（SFT）の報酬スコア曲線は徐々に上昇し、アライン済みモデル（Instruct）のレベルを上回ります（図中の点線はTPOを経ないモデルの固定スコア基準に対応）。同時に、元々アライン済みだったモデル（Instructモデル）に対しても、TPOは出力品質をさらに向上させることができます。

図3：TPOの未学習アラインメントモデル（SFT）における性能。

特に注目すべきは、元々選好学習を一切経ていないLlama-3.1-70B-SFT基本モデルが、わずか2ステップのTPO最適化で、ほぼすべての評価ベンチマークにおいて、強化学習でアラインされた同モデルLlama-3.1-70B-Instructの選好スコアを上回ったことです。

図4：TPOのアライン済みモデルにおける性能。

さらに、既にアライン済みモデルにおいても、TPOは追加の学習なしで各種タスクのモデル性能をさらに向上させることができます。

「広さと深さの組み合わせ」推論時拡張パラダイム

TPOの核となる利点の一つは、推論段階で即時アラインメントを実現できるだけでなく、柔軟に調整可能な「広さ＋深さ」の推論拡張戦略（test-time scaling）を提供することです。これは、各ラウンドの候補生成数（広さ）と反復最適化ラウンド数（深さ）を制御することで、出力品質と選好の一貫性を大幅に向上させることを意味します。

これは実践において特に重要です。多くの場合、最初から数十または数百の候補を生成することを望まない、あるいはできないことがあります（例：BoN-60のように、GPUメモリが不足する場合）。しかし、より少ないリソースで段階的な最適化効果を得られるのであれば、それは間違いなく実用的な価値があります。

論文では、広さと深さの役割を体系的な実験で分析しています。

サンプリング幅（N）は、各最適化ラウンド前に選択可能な応答の多様性を決定します。幅が大きいほど、初期候補が豊富になり、高品質なベースバージョンを得やすくなりますが、より大きなGPUメモリスペースを必要とします。

最適化深度（D）は、TPOが繰り返し出力を磨き上げるラウンド数を制御します。深度が増すほど、モデルはフィードバックを消化し生成を改善する機会が増えますが、より多くの反復時間を必要とします。

広さと深さは補完的です。広さは収束を加速させ、深さは精度を高めます。両者を組み合わせることで、コストを抑えつつより優れた効果を得られます。

図5：左図：探索幅がTPOに与える影響。右図：TPOのBoNに対する勝率。

図5に示すように、左図はHH-RLHFデータセットにおけるTPOの異なる幅設定での学習曲線を示しています。N=5からN=20まで、TPOの性能が継続的に向上し、「修正のみ」の順次最適化手法（Sequential Revision）をはるかに上回っていることがわかります。さらに印象的なのは、わずか2ラウンドのTPOで、各ラウンドで5つの応答を生成する（D2-N5）だけで、60サンプルをサンプリングする必要があるBest-of-N（BoN-60）戦略を上回るのに十分であったことです。

これは、最初から複数の候補を網羅的に生成するよりも、フィードバックによって「賢い反復」を行う方が良いことを示しています。TPOの「広さと深さの組み合わせ」メカニズムは、本質的に効率的なテスト時推論最適化手法であり、リソース制約のある環境下でLLMの性能を引き出す新たな道筋を提供します。

まとめと展望：推論もアラインメントの起点になり得る

TPOは、パラメータ調整なしで、自然言語フィードバックのみを用いて、推論段階で選好最適化を実現できる、軽量で柔軟かつ解釈可能な新しいパラダイムを示しました。学習時アラインメント手法と比較して、TPOはごくわずかな計算コストしか必要としません。アライン済みモデルをさらに改善し、未アラインモデルで「プラグアンドプレイ」の迅速な進化を実現することで、TPOはアラインメントの敷居を下げるだけでなく、LLMの推論能力の限界も広げます。

さらに重要なのは、TPOの背景にある思想が高度に拡張可能であることです。最適化プロセスを「言語化」し、モデルが自律的に理解・実行できるようにすることです。これは、将来のLLMの制御可能性、安全性、さらには個別カスタマイズのための汎用的なパスを提供します。

将来を見据えると、TPOはほんの始まりに過ぎないと信じています。推論段階での最適化、デバッグ、フィードバックメカニズムはまだ大いに発展の余地があり、大規模言語モデルの「フィードバックを理解し、出力を修正できる」能力も、このプロセスでさらに引き出されるでしょう。

アラインメントは必ずしも学習の終点ではありません。推論の起点にもなり得るのです。

備考：ニックネーム - 学校/会社 - 専門分野/会議（例：ACL）を添えて、技術/投稿グループに参加

ID：DLNLPer、備考を忘れずに

ICML 2025 | トレーニング不要、大規模モデルの好み即時アラインメント

短いURLをシェア