Metaが「Deep Think with Confidence」を発表:ほぼ何も変更せずに推論の精度と効率を向上

近年、大規模言語モデル(LLM)は複雑な推論タスクにおいて驚異的なパフォーマンスを示しており、特にテスト時に複数の推論チェーンを生成し、「自己整合性(Self-Consistency)」によって多数決を行う戦略は、回答の正答率を大幅に向上させてきました。しかし、この「並列思考」と呼ばれる手法は、莫大な計算コストを伴います。1つの問題につき数百、時には数千の推論パスを生成するため、トークン消費量が線形に増加し、実際のデプロイメントではほぼ持続不可能です。さらに悪いことに、生成パスの増加に伴い、性能向上は徐々に飽和し、時には低下することもあります。従来の投票法ではすべてのパスを等しく扱い、高品質な推論と低品質な推論を区別できませんでした。

画像

論文:Deep Think with Confidence

リンク:https://arxiv.org/pdf/2508.15260

このような背景のもと、Meta AIとUCSDの研究チームは、Deep Think with Confidence(DeepConf)を発表しました。これは、テスト段階で信頼度の低い推論パスを動的に識別・フィルタリングすることで、訓練コストを増やさず、ハイパーパラメータを調整することなく、推論の精度効率を同時に向上させるシンプルかつ強力な手法です。本稿では、この手法を包括的に解説し、「信頼度」という内在的な信号を通じて、よりスマートで効率的な推論統合を実現する方法を明らかにします。

なぜ「信頼度を伴う深層思考」が必要なのか?

従来の自己整合性手法は効果的であるものの、二つの大きな課題を抱えています:

1. 計算オーバーヘッドが甚大:例えば、AIME 2025数学競技問題では、Qwen3-8Bモデルを使用し、精度を68%から82%に向上させるために、追加で511の推論パスを生成し、1億以上のトークンを消費しました。

2. 収益逓減:より多くのパスを生成しても常に性能が向上するわけではなく、時にはノイズが混入し、低品質なパスが投票結果を「偏らせる」可能性があります。

これまでにも「グローバルな信頼度」(例えば、推論パス全体の平均信頼度)を用いてパスをフィルタリングする試みがありましたが、この方法には二つの欠点がありました:

局所的なエラーを隠蔽する:パス全体の平均値は、中間の一部のステップにおける深刻な不確実性やエラーを隠蔽する可能性があります。

早期終了が不可能:信頼度を計算するためには完全なパスを生成する必要があり、生成過程で早期に停止することができません。

DeepConfの動機は、まさにこれらの問題を解決することにあります。それは、よりきめ細かく、局所的な信頼度信号を利用して、生成中または生成後に低品質なパスを動的にフィルタリングし、効率的かつ正確な推論を実現することです。

DeepConfはどのように機能するのか?

一、信頼度指標の設計と理解

DeepConfの核となるのは、推論パスの品質を様々な角度から捉える一連の革新的な信頼度測定方法です。

1. トークンレベル指標:

トークンエントロピー(Token Entropy):モデルが次の単語に対してどれだけ不確実であるかを測ります。エントロピーが低いほど、モデルは確信しています。

ここで、はi番目の位置におけるj番目の単語の確率です。

トークン信頼度(Token Confidence):著者らは、上位k個の候補単語の平均負対数確率と定義しています:

注:ここでは信頼度が高いほど数値は低くなります(負号のため)が、論文での実際の使用では相対値により注目しています。数値が低いほど信頼度が高いことを意味します。

2. トレースレベル指標:

平均トレース信頼度(Average Trace Confidence):パス全体の全トークン信頼度の平均値。一般的に使用されますが、局所的なエラーを隠蔽しやすいです。

3. 革新的な指標(主要な貢献):

グループ信頼度(Group Confidence):トレースを固定長(例:1024トークン)の重複するウィンドウに分割し、各グループ内の平均信頼度を計算します。これにより、より滑らかな局所信号が得られます。

下位10%グループ信頼度(Bottom-10% Group Confidence):すべてのグループの中で信頼度が最も低い10%のグループの平均値を取ります。これにより、推論における最も脆弱で不確実な部分を捉えることができます。

最低グループ信頼度(Lowest Group Confidence):すべてのグループの中で信頼度が最も低いグループの信頼度値。これは最も極端な局所品質指標であり、オンライン生成における早期終了の判断に非常に適しています。

テール信頼度(Tail Confidence):トレースの最後の固定数トークン(例:2048トークン)のみの平均信頼度を計算します。推論の最終部分(答えを導き出す重要なステップ)の品質が極めて重要だからです。

異なる信頼度測定下での、正しい推論パスと誤った推論パスの信頼度分布

異なる信頼度測定下での、正しい推論パスと誤った推論パスの信頼度分布

二、オフライン推論モード

オフラインモードでは、すべての推論パスが既に生成されています。DeepConfは以下の二つの戦略を通じて多数決投票の効果を高めます:

1. 信頼度加重投票(Confidence-Weighted Majority Voting): 「1人1票」ではなく、各パスの投票ウェイトがその信頼度に比例します。信頼度の高いパスは最終結果により大きな影響力を持つことになります。

2. 信頼度フィルタリング(Confidence Filtering): 加重投票を行う前に、信頼度スコアに基づいて一部のパスをフィルタリングします。論文では主に二つのフィルタリング比率を試しました:

Top 10% :最も信頼度の高い10%のパスのみを保持します。積極的な戦略で精度を追求しますが、モデルが誤った答えに過度に自信を持っている場合、失敗する可能性があります。

Top 90% :最も信頼度の高い90%のパスを保持します。保守的な戦略で、多様性を維持しつつ最悪の10%をフィルタリングし、安定性と信頼性を提供します。

オフラインモードにおける、異なる信頼度指標の計算、フィルタリング、加重投票のプロセス

オフラインモードにおける、異なる信頼度指標の計算、フィルタリング、加重投票のプロセス

三、オンライン推論モード

オンラインモードの目標は、生成過程でリアルタイムにパスの品質を判断し、計算リソースを節約するために「失敗が運命づけられた」パスを早期に終了させることです。その核となるのは最低グループ信頼度指標です。

オンラインDeepConfは二つのステップに分かれています:

1. オフラインウォームアップ(Offline Warmup): 新しい問題に対して、まず少数の(例:16本)完全な推論パスを通常通り生成し、それらの最低グループ信頼度を計算します。その後、設定された保持比率η(10%または90%)に基づいて、停止閾値sを決定します。例えば、DeepConf-low(η=10%)は、ウォームアップセットにおける信頼度上位10%のパスの最低値を閾値sとして設定します。

2. 適応的サンプリング(Adaptive Sampling): 大規模なパス生成を開始します。トークン群(例:2048トークン)を生成するたびに、現在のグループ信頼度を計算します。

もし現在の値が閾値sを下回った場合、そのパスを直ちに終了します。

同時に、1つのパスが完了するたびに、現在までに生成されたすべてのパスの回答コンセンサス度が特定の閾値τ(例:95%)を超えているかを確認します。コンセンサスが達成されていれば、生成を停止し、直接結果を出力します。

この方法は、オンラインプロセスがオフラインフィルタリングの効果を近似的に再現しつつ、大量の不必要なトークン生成を回避することを保証します。

オンライン生成過程で、リアルタイムで計算されたグループ信頼度と閾値の比較に基づいて、推論パスを早期終了するかどうかを決定する方法

オンライン生成過程で、リアルタイムで計算されたグループ信頼度と閾値の比較に基づいて、推論パスを早期終了するかどうかを決定する方法

DeepConfの効果は?

実験設定

モデル:DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120Bなど、様々な規模の先進的なオープンソースモデルを網羅。

ベンチマーク:AIME 2024/2025, HMMT 2025, BRUMO 2025, GPQA-Diamondなどの複数の高難度数学推論データセット。

ベースライン:標準的な自己整合性+多数決投票(Cons@K)、および単一パス精度(Pass@1)。

評価:すべての結果は64回の独立した実行で平均され、精度生成された総トークン数の両方が報告されます。

オフライン評価結果

512パス下での、異なるモデル、異なるデータセットにおける、各種信頼度測定方法と異なるフィルタリング戦略のパフォーマンスを網羅的に比較

512パス下での、異なるモデル、異なるデータセットにおける、各種信頼度測定方法と異なるフィルタリング戦略のパフォーマンスを網羅的に比較

主な発見:

信頼度加重+フィルタリングは、ほぼ全面的に通常の投票より優れている。例えば、AIME25では、GPT-OSS-120Bがテール信頼度+Top10%フィルタリングを使用することで、通常の投票が97.0%であったのに対し、驚異的な99.9%の精度を達成しました。

Top10%フィルタリング戦略は通常最大の改善をもたらすものの、モデルが「自信過剰に間違える」ことによる性能低下のリスクも存在します(例:一部のデータセットにおけるGPT-OSS-120B)。

Top90%フィルタリングは非常に安全な選択肢であり、ほぼ常に通常の投票の精度と同等かそれ以上であり、同時にその後のフィルタリングの基盤を築きます。

局所的な信頼度信号(テールおよびボトム)は、全体としてグローバル平均信号に劣らず、あるいは優れていることを示しており、局所品質に注目することの必要性が確認されました。

DeepSeek-8Bを例に、最低グループ信頼度を用いたフィルタリングにおいて、Top10%およびTop90%戦略が通常の投票と比較して精度面で優位性を示す

DeepSeek-8Bを例に、最低グループ信頼度を用いたフィルタリングにおいて、Top10%およびTop90%戦略が通常の投票と比較して精度面で優位性を示す

オンライン評価結果

オンラインモードにおいて、DeepConf-highとDeepConf-lowが512パスの予算下で、通常の投票と比較してトークン消費量と精度面でどのようなパフォーマンスを示すか

オンラインモードにおいて、DeepConf-highとDeepConf-lowが512パスの予算下で、通常の投票と比較してトークン消費量と精度面でどのようなパフォーマンスを示すか

主な発見:

驚異的な効率向上:DeepConf-lowは平均で43-84%のトークン消費量を削減し、最高で84.7%(AIME25におけるGPT-OSS-120B)に達しました。

精度の維持あるいは向上:ほとんどの場合、DeepConfは大幅なトークン節約と同時に、ベースラインと同等かそれ以上の精度を達成しました。例えば、AIME24におけるDeepSeek-8Bは77.9%のトークンを節約しつつ、精度が5.8%向上しました。

二つのモードのトレードオフ:DeepConf-low(η=10%)は究極の効率を追求しますが、過度なフィルタリングにより精度がわずかに低下する場合があります。DeepConf-high(η=90%)はより堅牢で、より小さな効率向上(18-59%のトークン節約)で精度を確実に維持します。

GPT-OSS-120Bモデルにおける、DeepConfとベースライン手法の異なるタスクでの総生成トークン量の差異を比較

GPT-OSS-120Bモデルにおける、DeepConfとベースライン手法の異なるタスクでの総生成トークン量の差異を比較

DeepSeek-8Bを例にした、生成トークン数に応じた精度の変化曲線

DeepSeek-8Bを例にした、生成トークン数に応じた精度の変化曲線

DeepConfは、大規模言語モデルの内部信頼度信号を巧みに利用することで、テスト時の推論における「コスト対効果」の課題に対し、エレガントかつ効果的な解決策を提供します。この研究は、生成されるすべてのパスが等しいわけではないこと、そして推論プロセスの局所的な品質に注目することが、最終的な答えだけに注目するよりもはるかに重要であることを証明しました。この研究は、先進モデルの推論効率を大幅に向上させただけでなく、将来的に、より「自己認識的」でリソース効率の高いAIシステムを構築する方向性を示唆しています。つまり、AIが思考時に自身の確信度を測り、計算リソースをより賢く配分することを可能にするものです。

メインタグ:大規模言語モデル

サブタグ:AI推論自然言語処理深層学習研究信頼度スコア推論効率自己整合性


前の記事:MCPツールスタッキングは大きな落とし穴!開発者の大物が語る:コマンドラインの「脆さ」がAIを壊滅させた!コード実行環境に一本化すべき:7回の呼び出しが1回に!ネットユーザー:ブラックボックスツールはとっくに捨てるべきだった!

次の記事:データが語る:「男性は犬以下の生存率」|7つのデータセット

短いURLをシェア