ファインチューニングなしでLLM推論精度が99%に爆増!軽量推論フレームワーク「DeepConf」を試す|Meta最新

大規模言語モデル(LLM)が数学問題や論理的推論などの複雑なタスクを実行する際、「自己無撞着性(Self-Consistency)」と呼ばれる非常に普及しており効果的な方法があります。これは通常「並行思考」とも呼ばれます。そのロジックは非常にシンプルです。モデルに一度だけ考えさせるのではなく、異なるランダム性(temperature > 0)を用いて複数の解答プロセス(これを「推論パス」または「トレース」と呼びます)を生成させ、その後「多数決投票(Majority Voting)」によって最も多く出現した解答を選択します。これは、生徒が問題を何度も解き、最も多く導き出された解答を選ぶようなもので、通常その解答の正答率はより高くなります。

この方法は一時的に有効でしたが、問題点も明らかで、2つの致命的な課題が存在します。

* 途方もなく高いコスト:わずかな精度向上を目指すために、モデルに512本の推論パスを生成させる必要があると仮定します。これは、計算コスト(トークン消費量)が512倍に急増することを意味し、実際のアプリケーションでは耐えがたいものです。

* 性能のボトルネック:「多数決投票」には、各推論パスの「投票権」が平等であるという素朴な仮定があります。これは、複雑な問題を解決するために大規模な村民会議で一人一票が与えられるようなものです。しかし、この会議には深く熟考する専門家もいれば、適当に推測する素人もおり、問題を誤解している「邪魔者」さえもいます。規則が「全員平等」であるため、十分な数の「素人」や「邪魔者」が偶然にも同じ誤った解答を推測した場合、彼らの票が少数の専門家の正しい意見をかき消してしまう可能性があります。これが、パスが増えれば増えるほど、精度がすぐに飽和したり、時には低下したりする理由です。あまりにも多くの「ノイズ」が導入されるためです。

画像

画像

MetaとUCSDの研究者たちは、Deep Think with Confidence(DeepConf)と名付けられた軽量推論フレームワークを提案し、この「高価で非効率」な窮地を効果的に解決しました。これにより、GPT-ossのAIME2025での精度は驚異の99.9%に達し、標準的な多数決投票の97.0%をはるかに上回りました。https://arxiv.org/abs/2508.15260

DeepConf:モデルの「自信」は宝の山

DeepConfの発想は非常に巧妙です。外部の審判を増やさずに、モデル自身にどの推論パスがより高品質かを判断させることができるでしょうか?

画像

答えはイエスです。モデルの「内部信頼度信号(Internal Confidence Signals)」を介して。モデルが各単語(トークン)を生成する際、語彙内のすべての単語に対して確率分布を計算します。

* モデルが次の単語が何であるかを非常に確信している場合、この確率分布は非常に「シャープ」になり、少数の単語に集中します(エントロピーが低い)。

* モデルが非常に不確実な場合、いくつかの単語が等しく可能性があると感じるため、確率分布は比較的「フラット」になります(エントロピーが高い)。

DeepConfの核心的な考え方は次のとおりです。高品質な推論パスでは、モデルはほとんどのステップで自信を持っているはずであり、その生成プロセス全体を通してモデルの「信頼度」は概して高いはずです。逆に、不確実性やエラーに満ちたパスは、必ず特定の段階で「ためらい」を示し、信頼度が低くなります。

主要な概念:AIの「自信」をどう定量化するか?

AIの思考プロセスをより正確に「診断」するため、研究者たちはその「自信」を測定する様々な方法を検討しました。これは、基本的な単位から複雑なアプリケーションへと、段階的に進むプロセスです。

ステップ1:最も基本的な「トークン信頼度」(Token Confidence)の定義

画像

これは、すべての「自信」信頼度計算の基礎であり、モデルが各トークンを生成する際の確信度を定義します。

* Ci:i番目の位置で生成されたトークンの信頼度スコアを示します。

* Pi(j):i番目の位置で、モデルが予測するj番目に可能性が高い候補トークンの確率を表します。

* k:考慮する最も可能性の高い候補トークンの数を示します(例:k=20)。

* logPi(j):これは確率の対数です。確率値は0から1の間であるため、その対数は負数になります。

* −k1∑...:Σは合計記号です。全体の式は、確率が最も高いk個の候補トークンの対数確率を合計し、平均を取り、最後に負号を付けたものを意味します。

なぜこのように計算するのか?この公式は非常に巧妙です。モデルが非常に「自信」を持っている場合、特定のトークンに非常に高い確率(1に近い)を与え、他の候補トークンの確率は低くなります。このとき、logPの値は0に近づくため、計算された信頼度Ciは高い正の数になります。逆に、モデルが「不確実」な場合、多くの候補トークンに似たような低い確率を与えるため、logPの値は大きな負の数になり、最終的に計算される信頼度Ciは低くなります。

簡単に言えば、この公式はモデルの予測確率分布を直感的で数値化された「信頼度スコア」に変換します。スコアが高いほど、モデルはより確信しています。

ステップ2:「平均トレース信頼度」(Average Trace Confidence)から始める

単一トークンの信頼度が得られたら、最も簡単に考えられる方法は、推論パス全体の平均スコアを計算することです。

* 平均トレース信頼度(Average Trace Confidence):これは最も基本的な方法で、完全な推論パス内のすべてのトークンの信頼度を平均します。有効ですが、部分的な、決定的な推論の失敗を「平均化」してしまう欠点があり、パス全体が生成されるまで計算を待つ必要があり、早期中止はできません。

これまでのパス全体の平均信頼度(グローバル指標)を直接計算する方法とは異なり、DeepConfはこの方法が問題を隠蔽すると考えています。例えば、あるパスは90%のステップで非常に自信を持っているかもしれませんが、決定的なステップで間違っていても、平均値は依然として高くなる可能性があります。そのため、DeepConfはより詳細な一連の局所信頼度指標を提案しています。

ステップ3:局所信頼度測定(Local Confidence Measurements)

画像

この公式は、連続した短いテキスト(「グループ」)の平均信頼度を計算するものです。こうすることで、個々のトークンの信頼度の大幅な変動を避け、モデルがある推論段階における全体的な状態をより安定して反映させることができます。

* CGi:i番目のトークンで終わるこの「グループ」(Group)の信頼度を表します。

* Gi:n個のトークンを含むスライディングウィンドウを表します(例:n=2048)。

* ∣Gi∣:このグループ内のトークンの数です。

* ∑t∈GiCt:このグループ内のすべてのトークンの信頼度(上記公式1で計算されたCt)を合計します。

* グループ信頼度(Group Confidence):これはスライディングウィンドウ方式の測定です。全体を見るのではなく、連続した短いトークン(例えば1024個)の平均信頼度を計算することで、推論プロセス中の局所的な自信の変動をよりよく捉えることができます。

* テール信頼度(Tail Confidence):この指標は非常に特化しており、推論パスの最後の部分(例えば最後の2048個のトークン)の信頼度のみに関心があります。なぜなら、多くの場合、成功または失敗は最後の結論ステップにかかっており、終わりの自信度は非常に重要だからです。

* 最下位10%グループ信頼度(Bottom 10% Group Confidence):

画像

この指標は非常に巧妙で、パス内の信頼度が最も低い10%のセグメントの平均値に注目します。これは「木桶の短い板」を探すようなもので、急激な信頼度の低下は推論チェーンの断裂をしばしば示唆します。

* 最低グループ信頼度(Lowest Group Confidence):

画像

これは最も極端なケースで、パス全体の中で信頼度が最も低い「グループ」の値を直接使用して、パス全体の品質を表します。この指標は「短い板」に対するペナルティが最大です。これらの指標は、AIの思考プロセスに異なる焦点距離の顕微鏡を取り付けるようなもので、どの段階で混乱し始めたかを異なる次元から正確に捉えることができます。

画像

「最下位10%」または「テール」信頼度を採用し、フィルタリング(特に10%を保持)と組み合わせると、通常、最高の精度が得られます。

DeepConfの二重戦略:オフラインとオンライン思考

これらの信頼度指標に基づき、DeepConfは非常に実用的な2つの作業モードを設計しました。これらを2種類のプロジェクト管理スタイルと考えることができます。一つは、すべての提案が提出されてから評価する「後知恵の専門家」、もう一つは、プロジェクト進行中に信頼できない提案をいつでも停止させる「リアルタイム監視員」です。

画像

オフラインモード:「最も自信のある」思考パスに決定権を与える

オフラインモードの操作は非常に簡単で、モデルがすべてのN個の推論パスの生成を完了した後で、我々が作業を行うというものです。主に2つの重要な技術によって結果を最適化します。

* 信頼度加重多数決投票(Confidence-Weighted Majority Voting):これは従来の「一票一投」のルールを変更します。各推論パスの投票重みは1ではなく、その信頼度スコアになります。これにより、信頼度が高く、高品質なパスが最終決定においてより大きな発言力を持つことになります。

* 信頼度フィルタリング(Confidence Filtering):これはより直接的で、投票前に「予備選」を行うようなものです。例えば、信頼度ランキングで下位90%のパスを直接排除し、エリートである上位10%のみを最終決定に参加させることで、低品質なパスによるノイズの干渉を大幅に減らします。

オンラインモード:あの「頼りにならない」アイデアをリアルタイムで停止させる

画像

オンラインモードこそがこの研究の核心であり、真のコスト削減と効率向上を実現し、その操作は非常に見事です。その作業フローは非常に厳密に設計されており、以下のいくつかのステップに分解できます。

* オフラインウォームアップ(Offline Warmup):新しい問題に対し、システムはまず少数の推論パス(例えば16本)を完全に生成します。この「先鋒部隊」の役割は、現状を把握することです。

* 停止閾値の設定(Stopping Threshold):システムはこれら16本のウォームアップパスの「最低グループ信頼度」を分析し、それに基づいて動的な「合格ライン」(すなわち停止閾値s)を設定します。例えば、このバッチの中で信頼度の上位90%中の最低値を閾値として採用できます。

* 動的生成と早期終了(Online Generation with Early Stopping):次に、システムは新しい推論パスの生成を開始します。生成中に、その局所的な「グループ信頼度」をリアルタイムで監視し、自信が先ほど設定した閾値sを下回ったと判断すると、システムはそのパスを即座に中断し、それ以上トークンを無駄にしないようにします!

* 適応的サンプリング(Adaptive Sampling):さらに、これは素晴らしい追加設計です。システムは完了したパスの解答の一致度を継続的に統計します。もし、ほとんどのパスがすでに同じ解答を示している(例えば、一致度が95%を超えている)と判断した場合、解答がすでに明確であるため、それ以上のパスの生成を停止します。

実験結果:データは嘘をつかない

論文では、複数の高難度数学および科学推論ベンチマーク(AIME、HMMT、GPQAなど)において、DeepSeek-8B、Qwen3-32B、GPT-OSS-120Bなどの先進的なオープンソースモデルに対して詳細な実験が行われ、今回の結果は本当に驚くべきものでした。

画像

* 精度の大幅な向上:オフラインモードでは、AIME 2025テストセットとGPT-OSS-120Bモデルを例にとると、標準的な多数決投票(Cons@512)の精度は97.0%でしたが、DeepConf(Tail Conf@512 + 上位10%フィルタリング)を使用すると、精度は99.9%に達し、このベンチマークをほぼ完全に解決しました。

* コストの大幅な削減:オンラインモードでは、完全なパスを生成する多数決投票と比較して、DeepConf-low(積極的なフィルタリング戦略)は精度を維持または向上させつつ、トークン消費を最大84.7%削減できます。これは、以前100ドルかかっていた計算リソースが、現在では15ドルで同等かそれ以上の効果を達成できる可能性があることを意味します。

実践:DeepConfによる顧客離反予測

DeepConfの実ビジネスシーンでの効果を検証するため、私は研究者がオープンソースとして公開しているコードベースを基に、DeepConfベースの顧客離反予測エージェントの例を構築し、Kaggleの顧客データセットでテストを実施しました。

画像

技術スタックと環境要件

DeepConfのデプロイは比較的シンプルですが、いくつか重要な技術要件を理解しておく必要があります。

* vLLM推論エンジン:これはDeepConfを実行するための主要な依存関係であり、効率的なバッチ推論とトークンレベルのログ確率(logprobs)の取得に使用されます。これらは信頼度計算の基礎データとなります。

* logprobsをサポートするモデル:すべてのモデルAPIが詳細なトークン確率の返却をサポートしているわけではありませんが、DeepSeek-R1、QwenなどのオープンソースモデルはvLLMを介して完全にサポートできます。

* 適切な計算リソース:従来の自己無撞着性方法と比較して大幅に節約できるとはいえ、複数パス推論には依然として十分なGPU/CPUリソースが必要です。

実際の実行効果

私はDeepSeek-R1-8Bモデルを使用し、顧客離反予測タスクに対して8つの異なる「専門家視点」(信用スコアアナリスト、顧客行動専門家、財務状況アナリストなど)を設計し、各視点から4ラウンドの推論を生成し、合計32本の推論パスを作成しました。

画像

画像

実際の実行結果から、以下のことがわかります。

* 多角的分析:32本の推論パスが異なる専門的視点から同一顧客を分析し、10%から60%までの離反確率予測を生成し、推論の多様性を反映しました。

* 信頼度の定量化:各パスには明確な信頼度スコア(4.049~8.262の範囲)があり、その後のインテリジェントな選別基準となります。

* インテリジェント投票メカニズム:線形加重、指数加重、softmaxの3つの方法で信頼度加重投票を行い、最終的な予測結果は49.9%(「維持」に分類)となり、実際の状況と完全に一致しました。

* 効率的な実行:分析プロセス全体にかかった時間はわずか162秒で、1軌跡あたり平均63.2トークンが生成され、スループットは12.5トークン/秒に達しました。

3つのランダムな顧客を対象としたテストでは、予測精度は66.7%に達しました。これは複雑なビジネス予測タスクであることを考慮すると、非常に心強い結果です。

主要な発見

今回の実践により、DeepConfが実際のビジネスシーンで3つの際立った優位性を持っていることがわかりました。

* ビジネス洞察の豊かさ:複数の専門家視点を通じて、予測結果だけでなく、さらに重要な32種類の異なる分析アプローチが得られ、ビジネス上の意思決定に豊富な参考情報を提供しました。

* 結果の解釈性の高さ:各推論パスには完全な分析プロセスと明確な信頼度があり、予測結果が「ブラックボックス」ではなくなりました。

* 計算効率の制御可能性:数百本のパスを必要とする従来の方法と比較して、32本のパスで安定した信頼できる結果が得られます。

これはAI製品開発にとって何を意味するのか?

これまで、私たちは「人海戦術」(大量のパス生成)によって推論の難題を力ずくで解決しようと試みてきましたが、コストが高く、しばしばノイズに埋もれていました。DeepConfは、インテリジェントなフィルタリングと誘導を通じて、少数の高品質なパスで目標を正確に達成できることを証明しました。これは、計算の広さを追求することから、知能の深さを掘り下げることへの転換です。したがって、DeepConfの価値は、単なるコスト削減と効率向上をもたらす「秘密兵器」にとどまりません。第一線のAIエンジニアやプロダクトマネージャーにとって、それは戦略的な示唆をもたらし、大規模モデルとの協業方法における重要な進化を意味します。

画像

まだ試していない友人はぜひ試してみてください。そして、著者にスターを忘れずに!https://github.com/facebookresearch/deepconf/tree/main

未来はすでにここにあります。ご縁があれば共に歩みましょう!

記事終わり

転載をご希望の場合は、筆者までご連絡ください。無断転載は訴訟の対象となります。

メインタグ:大規模言語モデル

サブタグ:推論フレームワーク効率化信頼度スコア自己無撞着性


前の記事:スタンフォードが新たな強化学習パラダイムを提案:3BモデルエージェントがClaude、GPT-4を凌駕

次の記事:AI推論が7.5倍に急増!NVIDIA Rubin CPXがAI収益効率を再定義、1億ドルの投資で50億ドルのリターン

短いURLをシェア