Reasoning 新突破:SoftCoT++ 如何讓 LLM「多想幾條路」?

LRM 的推理能力依賴「思維鏈」(Chain-of-Thought, CoT),即生成中間推理步驟。但傳統方法在離散的token空間生成這些步驟,存在兩大問題:

信息丟失:每一步只能選一個詞,複雜邏輯可能被簡化;

多樣性不足:多次採樣可能生成雷同的路徑,無法充分探索可能性。

比如,讓模型解數學題時,它可能反覆用同一種錯誤思路,導致答案不准。圖片

論文:SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

鏈接:https://arxiv.org/pdf/2505.11484

傳統CoT與SoftCoT++的對比:前者在離散空間生成步驟,後者在連續空間生成“軟思維”

傳統CoT與SoftCoT++的對比:前者在離散空間生成步驟,後者在連續空間生成“軟思維”

近年來,Coconut、SoftCoT 等研究嘗試用連續潛在空間編碼推理過程(類似人腦的「模糊思考」),但新問題來了:如何讓模型在連續空間裡「多想幾條路」

SoftCoT++如何用「軟思維」突破限制

SoftCoT++的核心思想:

拆分「思考」與「推理」

思考階段:用小型輔助模型生成連續空間的「軟思維」(類似模糊的靈感);

推理階段:大模型基於這些「靈感」生成具體步驟。

模擬多路徑探索:傳統方法只能通過隨機採樣生成不同路徑,而SoftCoT++通過擾動初始條件(比如給不同的「思維起點」),讓模型在連續空間裡自然分化出多樣路徑。

舉個栗子:解同一道題時,模型可能先想「用方程」還是「畫圖」,不同起點會導向不同解法。

技術細節:多樣初始token與對比學習

兩大關鍵技術:

專用初始token([TNT] token)

傳統方法用固定占位符(如[UNK])觸發思考,SoftCoT++改用多個不同的[TNT]token,每個token對應一種初始思維方向。

相當於給模型不同的「思維導火索」,觸發多樣化的軟思維。

對比學習

目標:讓不同路徑的軟思維盡量「不同」。

方法:通過損失函數(公式如下)最大化不同思維之間的差異。

(簡單說:讓同一條路徑的思維更集中,不同路徑的思維更分散)

對比實驗:僅加噪聲(SoftCoT-P)效果有限,結合專用令牌和對比學習(SoftCoT++)顯著提升。

對比實驗:僅加噪聲(SoftCoT-P)效果有限,結合專用令牌和對比學習(SoftCoT++)顯著提升。

實驗:全面超越傳統方法

在數學、常識、符號推理的5個基準測試中,SoftCoT++表現搶眼:

數學推理:GSM8K 準確率提升 1-2%,Qwen3 模型達到 93.65%;

常識推理:StrategyQA 任務穩定領先;

兼容性:與自洽性(Self-Consistency)結合後,性能進一步飆升。

主流方法對比:SoftCoT++ 全面碾壓傳統CoT和Coconut

主流方法對比:SoftCoT++ 全面碾壓傳統CoT和Coconut

更關鍵的是,無需修改模型參數,只需在推理時增加計算資源(如生成10條思維路徑),就能立竿見影提升效果。

備註:昵稱-學校/公司-方向/會議(eg.ACL),進入技術/投稿群

圖片

id:DLNLPer,記得備註呦

主標籤:大型語言模型

次標籤:AI推理AI研究機器學習思維鏈


上一篇:為什麼我們不太可能很快獲得通用人工智慧

下一篇:Google重磅推出Jules,可自動生成PR,正面對決OpenAI的Codex!

分享短網址