大型語言模型(如ChatGPT)解決複雜問題時,通常會生成一段「推理過程」,最後給出答案。傳統評估方法只看最終答案的對錯,但論文提出一個反直覺的觀點:最終答案可能只是模型「臨時起意」的結果,中間步驟的思考更值得深挖。
論文:Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
連結:https://arxiv.org/pdf/2504.20708
比如,模型在解數學題時,可能中途算錯一步,但最後強行修正,導致答案錯誤;或者正確答案曾在中間步驟出現,卻被後續錯誤推導覆蓋。論文通過實驗證明,只依賴最終答案可能錯過更優解。
發現:中間步驟藏玄機,答案一致性決定準確性
研究者將模型的推理過程切割成多個 「子思考」(Subthoughts),例如看到「等一下」「換個角度」等提示詞,就認為模型進入新思考階段。然後,他們從每個中間步驟重新生成答案,形成一個答案分布。
關鍵發現:
正確答案往往在中間步驟頻繁出現,而錯誤答案則波動較大。
答案分布越集中(熵值低),模型越可能正確;分布越分散(熵值高),錯誤機率越高。
公式輔助理解:
熵值計算(衡量答案一致性):
熵值低 → 答案集中 → 可信度高 ✅
熵值高 → 答案分散 → 可能出錯 ❌
方法:如何用「分步檢查法」提升模型表現?
論文提出一套簡單但有效的流程:
1. 截斷思考:在模型的每個中間步驟(如「算到第3步」)處暫停。
2. 重啟生成:從暫停點重新生成後續推理,得到多個候選答案。
3. 投票決策:選擇出現次數最多的答案(眾數模式)。
舉個栗子🌰:
假設模型解方程式時,中間步驟生成過3次正確答案(96),但最終答案錯誤(50)。通過「分步檢查法」,系統會統計出96是高頻答案,從而糾正錯誤。