「待つ」を減らし、問題解決を増やす：NoWaitが大規模モデルの推論パスを再構築

大規模モデルの「おしゃべり病」：反省しないと問題が解けない？

現代の大規模モデル（DeepSeek-R1など）は、複雑な推論を行う際に、<think>タグや「Wait」、「Hmm」などの自己反省の言葉（人間が悩む時の独り言のように）を挿入し、「Wait... Let me double check…」と人間のように「独り言」を言いがちです。しかし、これらの言葉は冗長な検証ループを引き起こし、推論の軌跡を肥大化させ（例えば、ある数学の問題で7000以上のトークンを生成）、速度を低下させ、計算リソースの消費を増大させます。

まるで問題を解くときに「もう一度確認させて」と繰り返しつぶやいているようで、実際には堂々巡りです。

論文：Wait, We Don’t Need to “Wait”! Removing Thinking Tokens Improves Reasoning Efficiency

リンク：https://arxiv.org/pdf/2506.08343

NoWait手法による「Wait」系単語生成の抑制

NoWait：モデルに「キーワードフィルター」を装備

チームはゼロ訓練コストの解決策を提案します：

第一段階：「思考キーワード」の特定 – 「Wait/Hmm/Alternatively」などの高頻度の自己反省語を統計し、「ブラックリスト」を構築します。

第二段階：同義語のバリアント拡張 – 大文字小文字、スペースなどの語形変化を考慮し、例えば「Wait」を「wait」、「WAIT」などに拡張します（モデルが抜け穴を利用するのを防ぐため）。

第三段階：推論時のリアルタイム遮断 – デコード段階で、これらの単語の生成確率を強制的に負の値に抑え、モデルに無駄な言葉をスキップさせます。

これはモデルに「集中力維持プラグイン」をインストールするようなもので、操作中にモデルのパラメータを変更する必要はありません。

効果：テキスト/画像/動画タスクの全体的なスリム化

テキスト推論（数学競技問題）

QwQ-32B、Phi4などのモデルにおいて：

思考チェーンが27%-51%短縮（例：AIME問題集は1.5万トークンから1.05万に）

正答率が低下せず、むしろ上昇（AMC2023タスクで+4.25%）

テキストタスクのパフォーマンス比較：オリジナル vs. NoWait

テキストタスクのパフォーマンス比較：オリジナル vs. NoWait

マルチモーダルタスク（画像＋動画）

視覚モデル Kimi-VL：

トークン使用量が40-60%急減（例：EMMA-miniは5734から2269に）

精度はわずか3%の低下

動画モデル QvQ-72B：

推論が時間軸の論理により集中（例：「動画の開始→進行→終了」）

冗長な自己反省語が減り、論理がより簡潔に

視覚タスクのパフォーマンス比較

視覚タスクのパフォーマンス比較

動画タスクのパフォーマンス比較

動画タスクのパフォーマンス比較

事例比較

元の出力（Qwen3-32Bの数学問題解答）：「Wait, let me check again」が繰り返し現れ、同じ結論を5回検証。

NoWait出力：主要な検証ポイントに直行し、長さが30%短縮され、かつ正答。

NoWaitによる推論チェーン簡素化の事例

NoWaitによる推論チェーン簡素化の事例

主要な発見：RLモデルはなぜ「頑丈」なのか？

RL学習モデル（Qwen3-32Bなど）：「Wait」を遮断しても精度は安定しています。これはRLが必要な反省を促すためです。

蒸留された小型モデル（Qwen3-4Bなど）：精度が12%急落（AIME2025タスク）。これは、あらかじめ設定された推論チェーンに依存しており、キーワードをカットすると直接崩壊するためです。

蒸留モデルの精度急落比較

蒸留モデルの精度急落比較

業界的意義

ゼロコスト展開：再訓練やファインチューニング不要、プラグアンドプレイ。

マルチモーダル共通：テキスト、画像、動画タスク全てで効果があることが初めて証明されました。

認識の転覆：「自己反省」は必須のステップではなく、効率的な推論は形式をスキップできる。

問題を解く際によりためらわないことで、より正確かつ迅速になります！

メインタグ：大規模言語モデル

サブタグ：AI最適化、機械学習研究、マルチモーダルAI、推論効率

前の記事：ACL 2025 | 大規模モデルの「誤報伝播」？DRAGの二段階「マルチエージェント討論」が幻覚の重層化問題を解決

次の記事：AIの「二重人格」が露見、OpenAIの最新研究でAIの「善悪スイッチ」を発見、ワンクリックでダークサイドへ切り替え可能に

短いURLをシェア

元のURL：https://mp.weixin.qq.com/s/vWGz40AOu1TFU-97K-FoSg