最近、多くの人が大規模モデルの学習にどのようなラベルや報酬を使うか、またどのようなベンチマークモデルで公正な比較を行うかに頭を悩ませている中、西湖大学のMAPLE研究室は別の道を切り開きました。LLMが複雑な指示に対して性能が悪い場合、個別のSFTやRLプロセスを導入する必要があるのなら、なぜモデルが推論時にこの特定の問題を「一時的に学習」させてみないのか?この一見「とんでもない」アイデアが、驚くべき効果の向上をもたらしました。
想像してみてください。もし試験を受ける際に、解答する前に数秒間その特定の設問に「慣れる」ことができたら、あなたのパフォーマンスはもっと向上しませんか?
これこそが、西湖大学の研究チームが最新論文で提案した核心的なアイデアです。彼らが開発したSLOT(Sample-specific Language Model Optimization at Test-time)メソッドは、各入力プロンプト自体を「ミニトレーニングデータ」として扱い、モデルが回答を生成する前にこの特定の問題を「学習」し理解することを可能にします。
さらに驚くべきことに、この方法は信じられないほどシンプルです。
軽量なパラメータベクトルdelta(最終層の特性のみを変更)を最適化するだけです。
わずか数ステップ(例えば3ステップ)の勾配降下で済みます。
計算コストはほとんど無視できるレベルです(推論時間の増加はわずか7.9%)。
完全にプラグアンドプレイで、元のモデルを変更する必要はありません。
論文タイトル:SLOT: Sample-specific Language Model Optimization at Test-time
論文アドレス:https://arxiv.org/pdf/2505.12392
GitHubアドレス:https://github.com/maple-research-lab/SLOT
驚異的な効果
複数のベンチマークで新記録を樹立
最も挑戦的な高性能ベースラインと比較しても、実験結果は目覚ましいものです(すべてのログはオープンソースのGitHubで公開されています)。
Qwen2.5-7Bは、GSM8Kの数学的推論タスクにおいて、精度が57.54%から66.19%に急上昇し、8.65ポイント向上しました。
DeepSeek-R1-Distill-Llama-70Bは、GPQA Diamondで68.69%を達成し、70Bクラスのオープンソースモデルの新記録を樹立しました。
高難度のAIME 2024数学競技問題では、複数のモデルで10%以上の向上が実現しました。
核心的なイノベーション
プロンプトを「テスト時のトレーニングサンプル」として扱う
従来のLLMは、複雑な指示や特殊な形式の指示に直面すると「失敗」することがよくあり、形式要件を無視したり、誤った回答を出したりする可能性があります。
SLOTの解決策はエレガントかつシンプルです。単一の質問に対して、最終層の特性に直接deltaベクトルを追加し、質問プロンプト自体で交差エントロピー損失を最小化するだけです。
最終層で加算的なdeltaパラメータベクトルを最適化するだけで済むため、各質問は一度のネットワーク推論しか必要としません。最終層への入力である中間結果をキャッシュすることで、deltaの最適化プロセスは計算コストをほとんど増加させません。
この方法は非常にシンプルなので、擬似コードや数式は不要です。ここでは、SLOTをtransformers版のコード(vLLM版もオープンソース化済み)として、あなたの作業に適用する方法を示します。
modeling_qwen.pyのQwen2ForCausalLMモデルを例にとると、研究チームはforward関数でhidden_statesを取得した後にこのコードを挿入します。まず、すべての要素が0のdeltaベクトルを初期化し、それを最終隠れ状態(last hidden states)に加えます。次に、現在のプロンプトをトレーニングデータとして使用し、deltaを学習可能なパラメータとして、交差エントロピー損失を用いて最適化し、サンプル固有のdeltaパラメータを取得します。その後、最適化されたdeltaを用いて後続のトークンを生成できます。
なぜこれほど効果的なのか?
詳細な分析が秘密を解き明かす
研究チームは分析を通じて、SLOTによって最適化されたdeltaが出力される語彙の確率分布を著しく調整することを発見しました。
強化される語彙:reasoning、think、thinking など、推論に関連する語彙
抑制される語彙:数字記号(0-9)、法助動詞(should、will)、終了記号
これは、SLOTがモデルに「熟考」を促し、推論を早々に終えたり、表面的なパターンマッチングに陥るのを防いでいることを意味します。
特筆すべきは、SFTやRLのようなファインチューニングアルゴリズムとは異なり、この方法には以下が不要である点です。
モデルアーキテクチャの変更
追加のトレーニングデータ
複雑なサンプリング戦略
高価な計算リソース
広範な適用性
1.5Bから70Bまで、基盤モデルから推論の専門家まで
SLOTは、あらゆる規模と種類のモデルで安定した性能向上を示しています。
Qwenシリーズ:1.5Bから32Bまですべてで向上が見られます。
Llamaシリーズ:Llama-3.1を含む。
DeepSeek-R1シリーズ:すでに推論能力が専門的に最適化されているモデルでも、著しい向上が得られます。
特に注目すべきは、最も挑戦的なタスクにおいて、SLOTの向上が最も顕著である点です。
C-Eval Hardサブセット:+8.55%
AIME 2024:一部のモデルでは13%以上の向上
GPQA Diamond:65.66から68.69に向上(オープンソースのSOTAレベル)
まとめ
大規模モデルの時代において、誰もが「より大きく、より強力に」を追求する中、SLOTは「とんでもなく」シンプルなアイデアで証明しました。時には、モデルが回答する前に問題を「理解」させるだけで、驚くべき効果をもたらすことができるのです。
© THE END
転載をご希望の場合は、本公式アカウントにご連絡の上、許可を得てください。
投稿または報道のご依頼は、liyazhou@jiqizhixin.comまで。