推論のブレークスルー：SoftCoT++はいかにLLMに「複数の道を考える」ことを可能にするか？

LLMの推論能力は、中間推論ステップを生成する「思考連鎖」（Chain-of-Thought, CoT）に依存しています。しかし、従来の手法は離散的なトークン空間でこれらのステップを生成するため、二つの大きな問題があります。

情報損失：各ステップで一つの単語しか選択できず、複雑な論理が単純化される可能性があります。

多様性不足：複数回のサンプリングで類似した経路が生成され、可能性を十分に探索できません。

例えば、モデルに数学問題を解かせると、同じ間違った考え方を繰り返し使用し、答えが不正確になる可能性があります。

論文：SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

リンク：https://arxiv.org/pdf/2505.11484

従来のCoTとSoftCoT++の比較：前者は離散空間でステップを生成し、後者は連続空間で「ソフト思考」を生成します

近年、CoconutやSoftCoTなどの研究は、連続的な潜在空間を用いて推論プロセスを符号化（人間の脳の「あいまいな思考」に類似）しようと試みてきましたが、新たな問題が生じました。連続空間でモデルに「複数の道を考えさせる」にはどうすれば良いか？

SoftCoT++はいかに「ソフト思考」で限界を突破するか

「思考」と「推論」の分離：

思考段階：小型の補助モデルを用いて、連続空間での「ソフト思考」（あいまいなインスピレーションに類似）を生成します。

推論段階：大規模モデルは、これらの「インスピレーション」に基づいて具体的なステップを生成します。

多経路探索のシミュレーション：従来の手法はランダムサンプリングによってのみ異なる経路を生成できましたが、SoftCoT++は初期条件を摂動させる（例えば、異なる「思考の起点」を与える）ことで、モデルが連続空間内で多様な経路に自然に分化することを可能にします。

例：同じ問題を解く際に、モデルはまず「方程式を使うか」「図を描くか」を考えるかもしれません。異なる起点は異なる解法に導きます。

専用初期トークン（[TNT] token）

従来の手法では、固定のプレースホルダー（例：[UNK]）を使用して思考をトリガーしていましたが、SoftCoT++は複数の異なる[TNT]トークンを使用し、各トークンが異なる初期思考方向に対応します。

これは、モデルに多様なソフト思考をトリガーするための異なる「思考の導火線」を与えることに相当します。

対比学習

目標：異なる経路からのソフト思考が可能な限り「異なる」ようにする。

方法：損失関数（以下の式）を用いて、異なる思考間の差異を最大化します。

（簡単に言えば、同じ経路からの思考をより集中させ、異なる経路からの思考をより分散させる）

比較実験：ノイズのみ（SoftCoT-P）の効果は限定的でしたが、専用トークンと対比学習を組み合わせる（SoftCoT++）と性能が著しく向上しました。

数学、常識、記号推論の5つのベンチマークテストにおいて、SoftCoT++は優れた性能を発揮しました：

数学推論：GSM8Kの精度が1-2%向上し、Qwen3モデルでは93.65%を達成しました。

常識推論：StrategyQAタスクで安定してリードしています。

互換性：自己無撞着性（Self-Consistency）と組み合わせると、性能がさらに向上しました。

主要手法の比較：SoftCoT++は従来のCoTとCoconutを完全に凌駕しています

さらに重要なのは、モデルパラメータを変更する必要がないことです。推論時に計算リソースを増やすだけ（例えば10個の思考経路を生成する）で、即座に効果を向上させることができます。

備考：ニックネーム - 学校/会社 - 専門分野 / 会議名 (例:ACL) を明記して、技術/投稿グループにご参加ください。

ID: DLNLPer、備考をお忘れなく