Reasoning 新突破：SoftCoT++ 如何讓 LLM「多想幾條路」？

LRM 的推理能力依賴「思維鏈」（Chain-of-Thought, CoT），即生成中間推理步驟。但傳統方法在離散的token空間生成這些步驟，存在兩大問題：

信息丟失：每一步只能選一個詞，複雜邏輯可能被簡化；

多樣性不足：多次採樣可能生成雷同的路徑，無法充分探索可能性。

比如，讓模型解數學題時，它可能反覆用同一種錯誤思路，導致答案不准。

論文：SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

鏈接：https://arxiv.org/pdf/2505.11484

傳統CoT與SoftCoT++的對比：前者在離散空間生成步驟，後者在連續空間生成“軟思維”

近年來，Coconut、SoftCoT 等研究嘗試用連續潛在空間編碼推理過程（類似人腦的「模糊思考」），但新問題來了：如何讓模型在連續空間裡「多想幾條路」？

SoftCoT++如何用「軟思維」突破限制

拆分「思考」與「推理」：

思考階段：用小型輔助模型生成連續空間的「軟思維」（類似模糊的靈感）；

推理階段：大模型基於這些「靈感」生成具體步驟。

模擬多路徑探索：傳統方法只能通過隨機採樣生成不同路徑，而SoftCoT++通過擾動初始條件（比如給不同的「思維起點」），讓模型在連續空間裡自然分化出多樣路徑。

舉個栗子：解同一道題時，模型可能先想「用方程」還是「畫圖」，不同起點會導向不同解法。

專用初始token（[TNT] token）

傳統方法用固定占位符（如[UNK]）觸發思考，SoftCoT++改用多個不同的[TNT]token，每個token對應一種初始思維方向。

相當於給模型不同的「思維導火索」，觸發多樣化的軟思維。

對比學習

目標：讓不同路徑的軟思維盡量「不同」。

方法：通過損失函數（公式如下）最大化不同思維之間的差異。

（簡單說：讓同一條路徑的思維更集中，不同路徑的思維更分散）

對比實驗：僅加噪聲（SoftCoT-P）效果有限，結合專用令牌和對比學習（SoftCoT++）顯著提升。

在數學、常識、符號推理的5個基準測試中，SoftCoT++表現搶眼：

數學推理：GSM8K 準確率提升 1-2%，Qwen3 模型達到 93.65%；

常識推理：StrategyQA 任務穩定領先；

兼容性：與自洽性（Self-Consistency）結合後，性能進一步飆升。

主流方法對比：SoftCoT++ 全面碾壓傳統CoT和Coconut

更關鍵的是，無需修改模型參數，只需在推理時增加計算資源（如生成10條思維路徑），就能立竿見影提升效果。

備註：昵稱-學校/公司-方向/會議(eg.ACL)，進入技術/投稿群

id：DLNLPer，記得備註呦