DeepSeekの精度と効率が両方向上、Huawei&信工所が思考連鎖の「早期終了」メカニズムを提案

長い思考連鎖は大規模言語モデルに推論能力をもたらしますが、考えすぎは負担になる可能性があります。

Huaweiは、中国科学院情報工学研究所と共同で、大規模モデルが早期に思考を終了させてこの問題を回避する新しいメカニズムを提案しました。

この方法を使用すると、追加のトレーニングなしに、大規模モデルの精度と効率を同時に向上させることができます。

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIpjicokns9wxhevX5LORMhgKibSI5OKYMdkz2iaZFibe0RciawQKKeZQpqhw/640" alt="图片">

この方法はDEERと呼ばれ、Dynamic Early Exit in Reasoningの略です。

その核心は、推論情報の質が低下する前の臨界点を見つけ、この臨界点で大規模モデルの推論を速やかに中断することです。

複数の推論ベンチマークでの結果は、DEERがDeepSeekシリーズの推論LLMで常に有効であることを示しており、思考連鎖の生成長を平均で31%から43%削減し、同時に精度を1.7%から5.7%向上させています。

現在までに、DEERはQwQ、Qwen3、Nemotronなどのより多くの推論モデルおよび11の評価セットで継続的に有効であることが確認されています。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIBevnibyT7nJzepw8lUp4wJtpuooCQicwT64s0kKlkvU7wYVjCooibmZsg/640" alt="图片">

推論を停止する臨界点は動的計画が必要です。

直感的には、思考連鎖における推論経路の数が増加するにつれて、結論を生成するために参照できる情報も増えます。

推論情報がちょうど十分になる臨界点(パール推論、Pearl Reasoningと呼ばれる)を特定し、この時点でモデルにそれ以上の思考を停止させて直接結論を出力させることができれば、精度と効率の両方を同時に実現できます。

この研究の鍵は、長い思考連鎖の生成過程でそのようなパールを見つけることです。

この動機を検証するために、著者は各推論経路の遷移点でモデルに思考から直接回答生成に切り替えることを強制しました。得られた回答が正しければ、このパール推論の存在が検証されます。

下図に示すように、約75%のサンプルには実際にそのようなパール(すなわち、早期終了しても正しい回答を生成できる)が含まれており、元の推論経路の半分以下でも正しい回答を得られるサンプルが36.7%もあります。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8tEsGQOIJicgHwoWXK9niaEIefqn1LozPNmeOpYMKY6SoYRLI2TUhmicg/640" alt="图片">

したがって、長い思考連鎖からパール推論を見つける方法が、効率的な推論を実現するための非常に大きな可能性と価値のある課題です。

この目的のために、著者は予備実験で推論モデルに存在する過思考問題を詳細に分析し、静的早期終了がモデル性能に与える影響を調査しました。すべての実験はDeepSeek-R1-Ditil-Qwen-14Bで実施されました。

著者はまず、テストセットでモデルに完全な推論(前後のthinkタグ間の思考連鎖と結論を含む)を実行させ、その後、完全な思考連鎖を保持し、思考遷移点(「wait」などの単語の前後にある思考遷移など)に基づいてそれを思考ブロックに分割しました。

これらのサンプルに対して、著者は異なる割合(20%-90%)の思考ブロックを保持し、各切り捨てポイントに思考終了マーカー区切り文字を追加して、思考連鎖プロセスを強制的に終了させ最終結論を生成させました。

定量的な結果は、推論ステップのわずか20%を使用して早期終了するという静的設定の下で、MATH-500については、正しく回答されたサンプルの60.8%が依然として正しいままであることを示しました。

より難しいGPQAについては、依然として35.1%のサンプルが正しいままでした。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIDCK4QyLdxsicAicm7j2H8aNGTcgwJTOUFys5SHiaYoUVFc6CcFC3m4nTA/640" alt="图片">

下図は、異なる位置で早期終了することによって修正できる誤った回答の異なる割合を示しています。

MATHデータセットの場合、推論ステップの40%で終了したときに最高の誤り修正率に達しました。一方、GPQAデータセットの場合、推論ステップの50%で終了したときに最適な誤り修正率に達しました。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIkUe86Jfg2g0GnVS4g0lMP10Nyp1ozl9libdf6qrzTibGzibyt0icsRIhMQ/640" alt="图片">

どうやら、各問題の最適な早期終了点は異なり、問題自体の固有の難易度に密接に関連しているようです。

したがって、固定ヒューリスティクスに基づいた静的な早期終了戦略に依存することは最適ではありません。この動機に基づいて、著者は動的早期終了メカニズムを設計し、パール推論を見つけることによってさらに誤りを修正し精度を向上させると同時に、生成長を削減しました。

では、DEERは具体的にどのように機能するのでしょうか?

推論終了のタイミングを判断する3つのステップ

DEERは、推論中にモデルが思考連鎖を切り替える重要な瞬間を早期終了の機会と見なし、これらの瞬間に大規模モデルに思考を停止させ、試行的な回答を生成させます。

各試行回答の信頼度は、推論における早期終了の決定参考となります。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI0YHtmjU1lJpyaHPFfxH1q1gkj7vVjhiaVLjohYDYmic09MBicD0BzJ3qg/640" alt="图片">

具体的には、DEERメソッドは3つのアクションを含みます:推論遷移モニター(Reasoning Transition Monitor)、試行回答誘導(Trial Answer Inducer)、信頼度評価(Confidence Evaluation)。

推論遷移モニターは、budget force技術から着想を得ており、「wait」や「alternatively」のような単語を思考遷移の臨界点として認識し、その出現を監視します。

思考遷移点が出現すると、回答誘導のアクションがトリガーされます——著者は「wait」を「Final Answer:」に似たマーカーに置き換え、モデルに即座に検証回答を生成させます。

これは3番目のアクション、信頼度評価に使用されます——

信頼度が十分に高ければ、モデルはそれ以上の思考を停止するように設定され、すでに生成された思考連鎖に基づいて直接結論を生成します。

そうでなければ、回答誘導のアクションは取り消され、元の経路に沿って推論が続行されます。

下図は、DEERにおける検証回答の信頼度が、生成された思考連鎖が最終回答を生成するのに十分な情報量を含んでいるかどうかを実際に反映していることを示しています。

モデルの推論プロセスが不完全または欠陥がある場合、試行回答は明らかに低い信頼度を示す傾向があることが観察できます。逆に、推論が包括的で論理的に妥当な場合、モデルが生成する回答はより高い信頼度を持ちます。

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnInVhicutrfGydRUmNic6HwGVHCMr3hD6XAULfumviagJjBr5sSeQMyMA0g/640" alt="图片">

直感的には、DEERにおける回答誘導と信頼度評価の計算は、推論プロセス中に余分な遅延を導入し、特にテスト回答がまだ非常に長いコード生成タスクの場合、これは思考連鎖のシーケンスを短縮することによって得られる効率向上を低下させます。

この問題を解決するために、著者はこれらの効率制限をさらに解決するための分岐並列加速(branch-parallel acceleration)戦略を提案しました:

複数の分岐を単一のシーケンスに線形化し、専用のCausal Attention Maskを使用して並列生成します。

信頼度に基づいた枝刈りを通じて動的KVキャッシュ管理を実現します。この戦略により、Trial Answer InducerとConfidence Evaluationおよび進行中の推論連鎖生成の間の時間的な重なりが可能になり、全体の推論効率が最適化されます。

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8FAG9IWgEe5PDUsHx48ibTgIhlT6pibp8AYMlSSD6grWtjaFX8MFM3dQ/640" alt="图片">

さらに、エンドツーエンド遅延に関する詳細な議論は、今後のバージョンに含まれる予定です。

推論モデルをより速く、より強くする

DEERの性能を検証するために、著者は6つの挑戦的な推論ベンチマークで評価を実施しました。これには、3つの数学推論タスク(MATH-500、AMC 2023、AIME 2024)、1つの科学推論タスク(GPQA Diamond)、2つのコード生成タスク(HumanEval、BigCodeBench)が含まれます。

評価指標には、精度と効率をそれぞれ測定する精度と生成長が選ばれました。実験では、異なるサイズ(1.5B、7B、14B、32B)のDeepSeek-R1-Distill-Qwenシリーズモデルが使用されました。

実験結果は、DEERがすべてのモデルサイズおよび評価セットで驚くべき効果を示していることを示しています。

数値的には、DEERは従来のLong CoT方法と比較して、精度を平均で1.7〜5.7ポイント向上させると同時に、生成長を31%〜43%短縮しました。

小規模なモデルでは、DEERはMATH-500とAMC 2023という比較的難易度の低い2つのベンチマークでより顕著な改善を示しました。

大規模なモデルでは、DEERはAIME 2024とGPQAというより挑戦的な2つのベンチマークでより顕著な改善を示しました。

特に、モデルの推論能力が問題の難易度と一致する場合、著者の方法はより効果的です。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnITBOh7mYzKPlDqSnR3ARWxwcdCcgK1qChSicQEic23cTZgyNKk2TtpdTA/640" alt="图片">

2つのプログラミングテストセットHumanEvalとBigCodeBenchでは、著者の方法は生成長の平均64.9%削減を実現し、pass@1を2.1ポイント向上させました。また、0.95付近のしきい値に対して頑健性を示し、顕著な変動はありませんでした。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIibnRro8LRItuSaicSNbp9Suz03g0icbw0HTkibicibfKjjlITCwGmTES66aA/640" alt="图片">

DEERによるエンドツーエンド推論効率の向上をさらに検証するために、著者はhuggingface transformersに基づいてMATHおよびAMCデータセットで各サンプルの平均推論遅延をテストしました。

結果は、著者が提案した分岐並列デコーディング加速を使用しなくても、DEERはすでに推論遅延を43.4%から47.3%削減していることを示しています。

分岐並列デコーディングを採用した後、推論遅延の低下率はシーケンス長の低下率と超線形の関係を示しました。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnItBUpmmxeMF3aA5kc2ia8YpJnYy38micc3ibsheyE70dUUkibVFDsiasSXZQ/640" alt="图片">

著者はまた、サンプル分析を通じてDEERの有効性をさらに証明しました。

元の推論モデルは、問題を解決する際に思考を切り替えて複数の解決方法を探索する傾向がありますが、問題の最適な解決経路は1つしかない可能性が非常に高く、その後の思考でモデルは間違いを犯し、正しい回答を得られません。

2つの異なる結果のどちらが正しいかを検証するために、モデルは無限の自己チェックを行い、最終的には回答を提供できませんでした。

しかし、DEERの動作モードでは、この問題は効果的に回避されました。

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIZolAUia7aIuycqUpuZqL3SMIuH2sR1j5YSicdSwpzTibDv9ibG8RsXvqvg/640" alt="图片">

論文アドレス:https://arxiv.org/abs/2504.15895プロジェクトリンク:https://github.com/iie-ycx/DEER

メインタグ:AI推論

サブタグ:大規模言語モデル精度効率思考連鎖


前の記事:GPT-5開発の内部情報初公開!OpenAIチーフリサーチオフィサー「AGIはもうすぐそこだ」

次の記事:『サピエンス全史』著者ユヴァル・ノア・ハラリ:今日の最大のリスクは、炭素ベースの生命より百万倍速く進化するAIを信頼しながら、人間同士が信頼しないこと。真実は高価で複雑で苦痛なので、私たちは真実を拒否する。

短いURLをシェア