大規模モデルの「おしゃべり病」:反省しないと問題が解けない?
現代の大規模モデル(DeepSeek-R1など)は、複雑な推論を行う際に、<think>タグや「Wait」、「Hmm」などの自己反省の言葉(人間が悩む時の独り言のように)を挿入し、「Wait... Let me double check…」と人間のように「独り言」を言いがちです。しかし、これらの言葉は冗長な検証ループを引き起こし、推論の軌跡を肥大化させ(例えば、ある数学の問題で7000以上のトークンを生成)、速度を低下させ、計算リソースの消費を増大させます。
まるで問題を解くときに「もう一度確認させて」と繰り返しつぶやいているようで、実際には堂々巡りです。
論文:Wait, We Don’t Need to “Wait”! Removing Thinking Tokens Improves Reasoning Efficiency
リンク:https://arxiv.org/pdf/2506.08343
NoWait:モデルに「キーワードフィルター」を装備
チームはゼロ訓練コストの解決策を提案します:
第一段階:「思考キーワード」の特定 – 「Wait/Hmm/Alternatively」などの高頻度の自己反省語を統計し、「ブラックリスト」を構築します。
第二段階:同義語のバリアント拡張 – 大文字小文字、スペースなどの語形変化を考慮し、例えば「Wait」を「wait」、「WAIT」などに拡張します(モデルが抜け穴を利用するのを防ぐため)。
第三段階:推論時のリアルタイム遮断 – デコード段階で、これらの単語の生成確率を強制的に負の値に抑え、モデルに無駄な言葉をスキップさせます。
これはモデルに「集中力維持プラグイン」をインストールするようなもので、操作中にモデルのパラメータを変更する必要はありません。
効果:テキスト/画像/動画タスクの全体的なスリム化
テキスト推論(数学競技問題)
QwQ-32B、Phi4などのモデルにおいて:
思考チェーンが27%-51%短縮(例:AIME問題集は1.5万トークンから1.05万に)
正答率が低下せず、むしろ上昇(AMC2023タスクで+4.25%)
テキストタスクのパフォーマンス比較:オリジナル vs. NoWait
マルチモーダルタスク(画像+動画)
視覚モデル Kimi-VL:
トークン使用量が40-60%急減(例:EMMA-miniは5734から2269に)
精度はわずか3%の低下
動画モデル QvQ-72B:
推論が時間軸の論理により集中(例:「動画の開始→進行→終了」)
冗長な自己反省語が減り、論理がより簡潔に
視覚タスクのパフォーマンス比較
動画タスクのパフォーマンス比較
事例比較
元の出力(Qwen3-32Bの数学問題解答): 「Wait, let me check again」が繰り返し現れ、同じ結論を5回検証。
NoWait出力:主要な検証ポイントに直行し、長さが30%短縮され、かつ正答。
NoWaitによる推論チェーン簡素化の事例
主要な発見:RLモデルはなぜ「頑丈」なのか?
RL学習モデル(Qwen3-32Bなど):「Wait」を遮断しても精度は安定しています。これはRLが必要な反省を促すためです。
蒸留された小型モデル(Qwen3-4Bなど):精度が12%急落(AIME2025タスク)。これは、あらかじめ設定された推論チェーンに依存しており、キーワードをカットすると直接崩壊するためです。
蒸留モデルの精度急落比較
業界的意義
ゼロコスト展開:再訓練やファインチューニング不要、プラグアンドプレイ。
マルチモーダル共通:テキスト、画像、動画タスク全てで効果があることが初めて証明されました。
認識の転覆:「自己反省」は必須のステップではなく、効率的な推論は形式をスキップできる。
問題を解く際によりためらわないことで、より正確かつ迅速になります!