思考連鎖推論のボトルネックを打破!「ソフトシンキング」で大規模モデルが人間のような抽象能力を習得、トークン使用量も削減

CoT(「思考連鎖」)のように「一文字ずつ出力」するのではなく、「ソフトシンキング」を加えることで、大規模モデルが人間のように抽象的に思考できるようになります。

SimularAIとMicrosoft DeepSpeedの研究者が共同でSoft Thinkingを提案しました。これにより、モデルは離散的な言語記号に限定されず、連続的な概念空間で「ソフト推論」を行うことができ、離散トークンに基づく推論のボトルネックを打破します。

標準的なCoTと比較して、Soft ThinkingはPass@1の平均精度を最大2.48%向上させ、トークン使用量を22.4%削減します。

さらに、Soft Thinkingはプラグアンドプレイの推論戦略であり、追加のトレーニングなしで既存のモデル(Llama、Qwenなど)に適用できます。

画像

現在の主流な言語モデル推論方法には、重要な問題があります。それは、離散的な言語記号(単語やサブワードなど)を逐語的にしか生成できない点です。

これは、思考する際に一文字ずつしか言葉が出てこないようなもので、抽象的な概念を表現するモデルの能力を制限するだけでなく、複雑な問題において「単一パス選択」によって誤りを犯しやすくなります。

人間の脳は、思考する際に明確な言語記号に依存するのではなく、抽象概念の柔軟な統合を通じて推論を行います。

画像

Soft Thinkingは、この発想から生まれ、言語モデルの推論を「離散記号空間」から「連続概念空間」へと拡張します。

これにより、モデルはわずかな意味の違いの間にある概念を捉えることができ、より柔軟に複数の解法経路を探索しながら、効率的かつ解釈可能性を維持できます。

あるネットユーザーは、「この方法は自己回帰的な『貪欲』な次のトークン検索問題を解決する」とコメントしています。

画像

モデルを人間のように抽象的に思考させる方法

推論フロー:連続概念空間での「ソフト推論」

Soft Thinkingは、従来のCoTの中間推論段階のみを変更し、最終的な回答の離散的な生成(例:数学問題の数字の答えやコードの具体的なステートメント)は維持します。

Soft Thinkingの理論的本質は、線形近似による経路列挙の代替です。

複雑な問題を解く際、従来のCoTの推論経路数はステップごとに指数関数的に増加し(例えば、各ステップで1000トークンを選択すると、3ステップで1000^3種類の経路が存在する)、明示的に列挙することは不可能です。

Soft Thinkingは、線形化近似により、指数関数的な経路の合計を概念トークンの加重計算に簡素化します。

離散的なサンプリングを確率加重で置き換え、連続概念空間における線形変換を通じて複数の経路の情報を暗黙的に集約し、明示的な列挙による計算爆発を防ぎます。

画像

概念トークン:単一記号を確率分布で代替

従来の方法では毎回確定的なトークン(例:「30」「足す」)を生成しますが、Soft Thinkingは確率分布(例:「30」の確率40%、「掛ける」の確率30%、「分解する」の確率20%など)を生成します。この分布は「概念トークン」と呼ばれます。

各概念トークンは複数の可能な記号の「混合体」に相当し、モデルが複数の推論の可能性を同時に保持することを可能にします。

下の図の例では、「43×34」を計算する際、モデルは「34を30+4に分解する」と「直接掛ける」という2つの経路の確率を同時に考慮することができ、どちらか一方だけを選ぶわけではありません。

画像

連続概念空間:「曖昧な」意味空間での推論

概念トークンの確率分布とモデルの単語ベクトル(Token Embedding)を重み付けして結合することにより、連続的な概念空間が形成されます。

ここでの「連続」とは、モデルが異なる概念間を滑らかに移行できることを意味します。例えば、「数字の分解」から「乗算操作」へ自然に移行でき、明確な言語記号でステップを区切る必要がありません。

画像

コールドストップメカニズム:無効なループの回避

モデルはトレーニング中に概念トークン(「分布外」入力)に遭遇していないため、長時間の推論は繰り返しや混乱に陥る可能性があります(人間の思考における「フリーズ」に似ています)。

Soft Thinkingは「コールドストップ」メカニズムを導入しました。これにより、確率分布のエントロピー値を監視してモデルの「自信度」を判断します。

エントロピー値が継続的に低い場合(モデルが現在の推論経路に非常に確信を持っていることを示す)、中間ステップを早期に終了し、直接回答を生成することで、計算リソースの無駄を回避します。

テスト結果と比較

ベンチマークテストでは、QwQ - 32Bモデルの平均Pass@1精度は、標準CoTの83.84%から86.32%に向上し、最大で2.48%の向上、特にAIME 2024データセットでは6.45%の向上を達成しました。

推論効率の面では、DeepSeek-R1-Distill-Qwen-32Bは数学タスクにおけるトークン使用量を22.4%削減しました。

画像

他の方法との比較

COCONUT-TF(トレーニングなし):隠れ状態を直接入力として使用しましたが、完全に失敗し、最大長の出力を生成しましたが、正しい解はありませんでした。

平均埋め込み戦略:上位5つのトークンの平均のみを計算しましたが、精度が低く、生成長が長くなりました(例:AIME 2024では6.66%しか正しくありませんでした)。

画像

Soft Thinkingは、連続概念空間推論とコールドストップメカニズムを通じて、効率性と精度をインテリジェントにバランスさせ、大規模モデルの最適化に新しい視点を提供します。

興味のある方は、公式ウェブサイトで詳細をご覧ください。

公式サイト:https://soft-thinking.github.io/論文アドレス:https://arxiv.org/abs/2505.15778コードアドレス:https://github.com/eric-ai-lab/Soft-Thinking参照リンク:https://x.com/xwang_lk/status/1925399783503798692

— 完 —

📪 量子位AIテーマ企画が現在募集中です!「365業種AI導入事例」「AI応用1001選」へのご参加、またはお探しのAI製品や発見したAIの新動向をぜひお聞かせください。

💬 量子位AI交流グループにもぜひご参加ください!

画像

ワンクリックフォロー 👇 星を点灯

テクノロジー最前線の進展を毎日お届け

ワンクリックで「いいね」「シェア」「ハート」のトリプルコンボ

コメント欄にあなたの考えを残してください!

メインタグ:大規模言語モデル

サブタグ:ソフトシンキング効率化推論戦略抽象的思考


前の記事:Claude 4はどのように考えるのか?シニア研究者が回答:RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み

次の記事:Microsoft AIが従業員を公に「苦しめる」、バグ修正の唯一の貢献はPRタイトル変更のみ、GitHubコメント欄がお祭り騒ぎに

短いURLをシェア