長い推論≠高精度！「即答」と「深考」の適応的切り替え：トークン削減と精度向上の二重の利益の哲学

はじめに

推論能力の進歩は、大規模言語モデル（LLMs）およびマルチモーダル大規模言語モデル（MLLMs）の様々なタスクにおける性能を大幅に向上させました。しかし、思考の連鎖（CoT）推論への過度な依存は、モデル性能を低下させ、冗長な出力を生み出し、効率に影響を与えます。

研究により、長いCoT推論が常に精度を向上させるわけではなく、簡単なタスクを処理するモデルの能力を弱めることさえあると判明しました。このため、私たちは信頼度に基づく適応型推論フレームワーク（CAR）を提案します。これは、モデルのパープレキシティ（PPL）に基づいて、短い回答と詳細な長文推論を動的に選択できます。まず短い回答を生成し、パープレキシティを評価し、モデルの信頼度が低い（パープレキシティが高い）場合にのみ推論をトリガーします。

マルチモーダル視覚応答、キー情報抽出、テキスト推論など複数のベンチマークテストにおいて、CARは単純な短い回答や長い推論手法を上回り、精度と効率の最適なバランスを実現しました。

論文タイトル：

Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

論文アドレス：

https://arxiv.org/abs/2505.15154

関連研究

CARは、長短推論を自動的に切り替える最初のソリューションです。CARに最も関連する分野は、推論プロセスにおけるトークン数を削減する手法であり、推論中にトークンが多すぎることによる計算オーバーヘッドの増加を解決することを目的としています。

Concise Thoughts [1]は、固定されたグローバルトークン予算を使用してトークンの生成数を制限し、Token-Budget-AwareなLLM推論方式（TALE）[2]は、問題の複雑さに基づいてトークン数の予算を動的に調整します。

しかし、これらの手法は追加のLLM呼び出しを導入したり、非現実的なトークン数制限に直面する可能性があります。さらに、Chain of Draft（CoD）[3]は、最小限の中間ステップを生成することで冗長性を減らし、精度に影響を与えることなく出力トークンの数を大幅に削減します。

最近では、並列推論の手法[4]や、解釈性を犠牲にして予測トークン数を削減する手法[5,6]も提案されています。

パイロット実験

パイロット実験のセットアップ

私たちは、テキスト集約型視覚応答（VQA）およびキー情報抽出（KIE）の分野でパイロット実験を行い、8つの代表的なデータセットを実験に選びました。これにはVQAデータセットとしてDocVQA、InfoVQA、ChartQA、VisualMRC（文書、チャート、インフォグラフィックなど多様な視覚テキストをカバー）、KIEデータセットとしてSROIE、CORD、FUNSD、POIE（レシート、テーブルなどの構造化情報抽出に焦点を当てる）が含まれます。

上記データに基づいて、Qwen2.5-0.5Bを微調整し、ドメイン内（DocVQA、ChartQAなど）およびドメイン外（POIE、InfoVQAなど）データセットで性能を評価しました。モデルには2種類の応答を生成するよう求められました：短い回答（プロンプト：「Please directly output the answer」）と長文推論＋回答（プロンプト：「Please output the reasoning process before outputting the answer」）。

評価後、対応するデータセットの精度（Accuracy）と回答のパープレキシティ（PPL）を統計しました。PPLが低いほど、モデルの回答に対する信頼度が高いことを示します。

▲ 図1 データセット PPLスコアと精度

▲ 図2 各データセットにおけるPPLと回答の正誤の分布図

実験の結果、PPLと精度には強い負の相関があることが判明しました。データセットレベルでの精度とPPLの関係を分析すると、両者は顕著な逆相関を示しました（図1参照）：精度が高いデータセットほど、平均PPLが低くなりました。

さらに、図2に示すように、データセット内部では、正しく予測された例の平均PPLスコアは、誤って予測された例の平均PPLスコアよりも低いことが判明しました。

上記の実験は、PPLがモデルの信頼度指標としての可能性を明らかにしました。したがって、まずPPLに基づく基本的な動的推論決定を提案します。これは、信頼度が低いシナリオ（PPLが閾値を超える場合）で長文推論をトリガーして拙速な決定を避け、信頼度が高いシナリオでは直接短い回答を出力して推論効率を向上させるものです。

具体的には、テストセットPPL分布の75%分位数を閾値として性能を評価しました（表1参照）。実験の結果、モデルはほとんどのデータセットで明確な性能向上を示しました。

▲ 表1 PPLを75%分位数を閾値とした場合の性能比較

手法（Certainty-based Adaptive Reasoning）

上記の探索的知見に基づき、本稿ではこれらを基礎として、パープレキシティ（PPL）を用いた動的推論決定フレームワークであるCertainty-based Adaptive Reasoning（CAR）を開発します。その目標は、推論プロセス中に短いテキスト推論と長いテキスト推論の間を適応的に切り替えることができることです。

冗長な計算を回避することで、この手法はモデルの推論効率と精度を著しく向上させます。図3(a)に示すように、まず短い回答を含む例と長いテキスト推論応答を含む例を使用して、大規模言語モデル（LLM）またはマルチモーダル大規模言語モデル（MLLM）を訓練します。

続いて、訓練データのパープレキシティ（PPL）を活用し、正しい短い回答と誤った短い回答のPPL分布を推定します。これらの分布は意思決定に用いられます。具体的には、推定された分布が短い回答が正しいと判断した場合、提案された手法はその正しい回答を直接出力します。そうでなければ、長いテキスト推論を実行します。推論プロセスは図3(b)に示す通りです。

▲ 図3 CARモデルの訓練と推論プロセスの模式図

モデル訓練：短い回答と長文推論回答の両方が含まれる訓練例を混合し、新しいデータセットを構築します。

短い回答を生成するようにモデルを誘導するために、「Please directly output the answer」という指示を使用します。推論プロセスを含む長文回答を生成する必要がある場合は、「Please output the reasoning process before outputting the answer」という指示を使用します。

その後、標準的な指示チューニングプロセスを採用し、モデルは入力テキストと出力テキストからなるシーケンスを受け取り、交差エントロピー損失を最適化目標とします：

モデルの訓練完了後、訓練セット内のすべてのサンプルに対して短い回答の推論を行い、予測された回答を生成し、そのパープレキシティ値（PPL）を計算します。トークンシーケンスのパープレキシティは次のように定義されます：

ガウス分布モデリング：二値変数Cは短い回答が正しいかどうか（C=1は正しい、C=0は誤り）を示します。正しい回答と誤った回答のPPL分布はそれぞれガウス分布に従うと仮定します：

確率密度関数はそれぞれ：

最後に、訓練データを通じてそのパラメータを推定します（n_1とn_0はそれぞれ訓練セットにおける正しい回答と誤った回答の数を仮定）：

推論プロセス新しい入力xに対して、推論ステップは以下の通りです：

1. 短い回答の推論：モデルは短い回答を生成し、それに対応するPPLをPPL_newとして計算します。

2. 確率計算：ベイズの定理に基づいて、PPL_newを確率密度関数に代入し、事後確率を計算します。

ここで、事前確率はそれぞれ：

3. 決定規則：短い回答の正しい確率が誤っている可能性よりも高い場合、直接短い回答を出力します。そうでなければ、モデルの長文推論をトリガーします。

実験結果

5.1 実装の詳細

私たちは、Qwen2-VL-7B-Instructをマルチモーダル言語モデルとして採用し、Qwen2.5-7B-InstructおよびLlama3.1-8B-Instructを大規模言語モデルとして使用し、それぞれCAR、CAR、およびCARと命名しました。

すべてのモデルは3エポックで訓練され、バッチサイズ32、学習率1e-6のAdamW最適化手法を使用しました。最大入力および出力シーケンス長はそれぞれ4096と1024に設定されました。訓練は8基のNVIDIA A100 GPUで行われました。

ランダム性の影響を排除するため、すべてのモデルはテスト中にサンプリング方法を使用せず、一律にbeam search=1で生成されました。さらに、生成される最大トークン数は1024、最大入力トークン数は4096に設定されました。

提案手法の有効性を検証するため、DocVQA、ChartQA、FUNSDの3つのマルチモーダルデータセットで実験を行いました。

これまでの章での先行実験とは異なり、ここでは画像モダリティデータを入力し、マルチモーダル大規模言語モデルを使用して性能評価を行いました。これらのデータセットには推論プロセスの注釈が不足していたため、先行実験で得られた推論プロセスデータを再利用しました。

さらに、テキストデータセットでもCAR手法を評価し、広く使用されている3つの推論データセットを選択しました：数学推論データセットGSM8KとMathQA、および常識推論データセットStrategyQA。

5.2 マルチモーダルデータセットの性能比較

表2は、マルチモーダルデータセットにおける性能を示しています。まず、CARがCARとCARに比べて優れた性能を示したことは、推論経路選択の指標としてパープレキシティ（PPL）を使用することの有効性を証明しています。

さらに、CARは最高の平均精度77.9%を達成し、ベースラインモデルQwen2VLおよびQwen2VLにそれぞれ2.8%と5.5%の向上をもたらしました。

注目すべきは、私たちの手法が少ないトークン使用量（平均86.9トークン）を維持しており、これはQwen2VLが使用したトークン数のわずか15%に過ぎません。これらの結果は、マルチモーダルシナリオにおけるCARの実用性を示しています。

▲ 表2 マルチモーダルデータセットにおける性能比較

5.3 テキストデータセットの性能比較

表3と4は、テキストベースの推論タスクの性能比較を示しています。CAR手法は堅牢な性能を発揮しています。具体的には、Qwen2.5-7Bモデルを使用した場合、平均精度は81.1%に達し、Llama3.1-8Bを使用した場合、74.9%に達しました。いずれも短い回答のベースラインモデル（55.8%と51.5%）および長文推論モデル（75.0%と70.8%）を上回りました。

注目すべきは、長文推論のみの場合と比較して、CARのトークン使用量はそれぞれ45.1%（Qwen2.5モデルの場合）および45.6%（Llama3.1モデルの場合）削減されました。Qwen2.5モデルでは、CARは常にCARとCARを上回り、パープレキシティ（PPL）をパス選択指標として使用することの有効性を改めて証明しました。

さらに、CARの性能はTALEやCODといった先進的なトークン削減手法をも上回りました。具体的には、Qwen2.5モデルにおいて、CARの平均精度はTALEより8.3%、CODより6.9%高く、かつ最低のトークン使用量（すなわち69.2トークン）を維持しました。

同様に、Llama3.1モデルにおいても、CARの平均精度はTALEより6.6%、CODより5.5%高く、かつ生成されるトークン数は最小でした。

特筆すべきは、CARの適応型ルーティングがMathQAデータセットで特に有効であった点です（Llama3.1モデルでは70.2% vs CODの59.1%、Qwen2.5モデルでは83.8% vs CODの67.1%）。この現象の潜在的な理由は、提案されたCARモデルが不要な推論ステップを排除したことにあると考えられます。これは、異なる推論パラダイムにおけるCARの実用性を強調しています。

▲ 表3 テキストデータセットにおける性能比較（Qwen2.5モデルに基づく）

▲ 表4 テキストデータセットにおける性能比較（Llama3.1モデルに基づく）

5.4 TALE手法融合後の性能比較

私たちは、CARフレームワークとTALEなどのトークン削減技術を組み合わせる実現可能性をさらに探求しました。TALEによって生成された短い推論ステップを元の推論プロセスに置き換えることで、Qwen2.5-7BとLlama3.1-8B上にCAR-TALEシリーズのバリアントを構築しました。

表5と表6の結果は、Qwen2.5モデルにおいて、CARとTALEを組み合わせた後、平均精度が78.8%から85.5%（+6.7%）に向上し、生成トークン数が127.8から111.3に減少したことを示しており、性能と効率の両面で向上が実現されました。

Llama3.1モデルにおいても、TALEとの組み合わせ後、平均精度が71.6%から80.8%（+9.2%）に向上し、融合ソリューションの有効性が検証されました。

実験は、CARとトークン削減技術が相乗効果を持つことを証明しました。適応型推論フレームワークの動的なパス選択と推論トークン削減技術の組み合わせにより、大規模モデル推論の効率と精度をさらに最適化できます。

▲ 表5 TALEソリューションを融合したCARの性能比較（Qwen2.5に基づく）

▲ 表6 TALEソリューションを融合したCARの性能比較（Llama3.1に基づく）

まとめ

私たちは信頼度に基づいた適応型推論フレームワーク（CAR）を提案しました。このフレームワークは、モデルの信頼度に応じて短い回答と長文推論モードを動的に切り替えることができます。

パープレキシティ（PPL）によってモデルの回答に対する信頼度を定量化することで、CARは信頼度が高い場合には効率を高めるために直接短い回答を出力し、信頼度が低い場合には精度を確保するために長文推論をトリガーします。

実験の結果、マルチモーダル（DocVQA、ChartQAなど）およびテキスト推論（GSM8K、MathQAなど）タスクにおいて、CARは純粋な長文推論と比較してトークン使用量を45%以上削減し、平均精度を6%〜8%向上させました。Qwen2.5、Llama3.1などのモデルでベースライン手法を上回り、特に数学推論タスクでは冗長なステップを大幅に削減しました。

CARは「長文推論が必ずしも性能が良いとは限らない」という固定観念を打ち破り、大規模モデル推論により柔軟で効率的なソリューションを提供し、大規模モデル推論のインテリジェント化、軽量化の方向へ推進しています。

参考文献

1. Nayab, Sania, et al. "Concise thoughts: Impact of output length on llm reasoning and cost." arXiv preprint arXiv:2407.19825 (2024).

2. Han, Tingxu, et al. "Token-budget-aware llm reasoning." arXiv preprint arXiv:2412.18547 (2024).

3. Xu, Silei, et al. "Chain of draft: Thinking faster by writing less." arXiv preprint arXiv:2502.18600 (2025).

4. Ning, Xuefei, et al. "Skeleton-of-thought: Large language models can do parallel decoding." Proceedings ENLSP-III (2023).

5. Hao, Shibo, et al. "Training large language models to reason in a continuous latent space." arXiv preprint arXiv:2412.06769 (2024).

6. Shen, Zhenyi, et al. "Codi: Compressing chain-of-thought into continuous space via self-distillation." arXiv preprint arXiv:2502.21074 (2025).

その他の記事

#投稿募集#

あなたの文章をより多くの人に見てもらいましょう

より多くの高品質なコンテンツを読者層により短い経路で届け、読者が高品質なコンテンツを探すコストを短縮するにはどうすればよいでしょうか？答えは、「あなたが知らない人」です。

あなたが知らない人の中には、あなたが知りたいことを知っている人が常にいます。PaperWeeklyは、異なる背景や専門分野の研究者や学術的ひらめきが互いに衝突し、より多くの可能性を生み出す架け橋となるかもしれません。

PaperWeeklyは、大学の研究室や個人が、最新の論文解説、学術ホットトピックの分析、研究経験、競技経験の解説など、様々な高品質なコンテンツを当プラットフォームで共有することを奨励しています。私たちの唯一の目的は、知識が真に流通することです。

📝 原稿の基本要件：

• 記事は個人のオリジナル作品であり、公の場での発表がないこと。他のプラットフォームで既に発表されているか、発表予定の文章である場合は、明記してください。

• 原稿はmarkdown形式で記述することをお勧めします。文中の図は添付ファイルとして送付し、鮮明で著作権問題がないことが求められます。

• PaperWeeklyは著者の署名権を尊重し、採用されたオリジナル初の記事には、記事の閲覧数と品質に応じて競争力のある報酬を提供します。

📬 投稿窓口：

• 投稿メールアドレス：hr@paperweekly.site

• 投稿の際は、即時連絡可能な連絡先（WeChat）を明記してください。これにより、原稿採用時に速やかに著者に連絡できます。

• 編集者WeChat（pwbot02）を直接追加して迅速に投稿することも可能です。その際、「氏名-投稿」と備考してください。

△長押しでPaperWeekly編集者を追加

🔍

現在、「知乎」でも私たちを見つけることができます

知乎のトップページで「PaperWeekly」を検索し

「フォロー」をクリックして私たちのコラムを購読しましょう

長い推論≠高精度！「即答」と「深考」の適応的切り替え：トークン削減と精度向上の二重の利益の哲学

短いURLをシェア