打破常規：為什麼LLM的最終答案可能不靠譜？

大型語言模型（如ChatGPT）解決複雜問題時，通常會生成一段「推理過程」，最後給出答案。傳統評估方法只看最終答案的對錯，但論文提出一個反直覺的觀點：最終答案可能只是模型「臨時起意」的結果，中間步驟的思考更值得深挖。

論文：Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
連結：https://arxiv.org/pdf/2504.20708

比如，模型在解數學題時，可能中途算錯一步，但最後強行修正，導致答案錯誤；或者正確答案曾在中間步驟出現，卻被後續錯誤推導覆蓋。論文通過實驗證明，只依賴最終答案可能錯過更優解。

發現：中間步驟藏玄機，答案一致性決定準確性

研究者將模型的推理過程切割成多個「子思考」（Subthoughts），例如看到「等一下」「換個角度」等提示詞，就認為模型進入新思考階段。然後，他們從每個中間步驟重新生成答案，形成一個答案分布。

關鍵發現：

正確答案往往在中間步驟頻繁出現，而錯誤答案則波動較大。

答案分布越集中（熵值低），模型越可能正確；分布越分散（熵值高），錯誤機率越高。

公式輔助理解：
熵值計算（衡量答案一致性）：
熵值低 → 答案集中 → 可信度高 ✅
熵值高 → 答案分散 → 可能出錯 ❌

方法：如何用「分步檢查法」提升模型表現？

論文提出一套簡單但有效的流程：

1. 截斷思考：在模型的每個中間步驟（如「算到第3步」）處暫停。

2. 重啟生成：從暫停點重新生成後續推理，得到多個候選答案。

3. 投票決策：選擇出現次數最多的答案（眾數模式）。

舉個栗子🌰：
假設模型解方程式時，中間步驟生成過3次正確答案（96），但最終答案錯誤（50）。通過「分步檢查法」，系統會統計出96是高頻答案，從而糾正錯誤。