先驗與後驗機制加持,大型模型能否應對推理預測中的現實「溢出」?

引言:近日,字節跳動等公司推出的 FutureX 動態評測基準,讓大型模型在答案未知、資料動態更新和閉環檢驗的情況下,直接面對預測型「考卷」。這項工作區分了模型的預測能力和記憶能力,並探究了模型在長程推理、執行穩健性以及不確定性環境下的表現。此外,大型模型在財務預測、疾病評估等情境的落地效果仍在優化過程中,業界研究者們也正在尋找能填平推理與執行鴻溝的新機制。

圖片

01 FutureX 問世,從長程推理到現實預測,大型模型頂住了嗎?

1、目前,大多數用於評估大型語言模型的基準都依賴於預先存在、固定不變的資料集。

2、這種評估方式在衡量模型的事實性知識或在已知資料集上的簡單推理能力時表現較好,但當面對動態的真實世界進行預測時,則難以考察模型真正的推理實力。

① 靜態基準通常處理的是在已有解決方案的情況下靜態且定義明確的問題。這意味著,如果一個模型是在 2024 年的資料上訓練的,並在源於同一時期的基準上進行了測試,那麼其表現更多是對其記憶能力的衡量,而非對真正預測能力的考量。

② 且這種方法也容易受到資料汙染的影響,無法有效測試模型在未知環境下真正的適應性推理能力。

3、基於此,字節跳動等公司發布了 FutureX 動態評測基準,將評估的重點從模型的記憶遷移到真正的動態預測能力。[2-1]

① 該基準每天自動抓取 195 個選自 2000 多個網站的高品質資訊源,在事件發生前調度 23 個主流模型/智慧代理人進行預測,事件發生後再抓取結果進行評分。這一閉環設計確保了模型在預測時對答案「未知」,杜絕了資料汙染。

4、在該基準測試中,研究者將任務劃分為基礎、廣泛搜尋、深度搜尋和超級智慧代理人四個難度等級,實驗發現在簡單選擇題上,不依賴工具的基礎 LLM 表現較好,但在複雜任務上,能即時呼叫工具(連網搜尋)的智慧代理人開始顯現出優勢。[2-1]

① 基礎類任務讓模型從給定的少量選項中直接選擇,廣泛搜尋類任務則是讓窮舉式地辨別並返回所有正確選項。

② 深度搜尋類任務是指模型互動式搜尋與資訊整合,綜合證據得出答案;超級智慧代理人任務則讓模型預測高波動、開放性事件,進行廣域搜尋和深度推理。

5、但模型的預測能力不僅限於搜尋,更多的是在充滿不確定性的真實世界環境裡進行高品質的推理。[2-2]

① FutureX 研究者為測試模型純粹的預測能力,對模型進行了事前預測和事後搜尋的對照實驗。

② 實驗表明,Grok-4 在事後搜尋模式下得分極高,但在事前預測模式下準確度卻大幅度下跌。

6、在現實的長程任務中,人類往往依靠推理、規劃和分工等機制來維持任務的連續性和穩定性,但大型模型在長程任務上的表現一直不太理想。傳統的解釋通常認為,這是因為模型缺乏足夠的推理和規劃能力,導致任務在長鏈條上最終崩潰。

7、然而,2025 年 9 月,劍橋大學等機構的研究者透過實驗將「執行」與「推理」人為分離,他們預先向模型提供完整的知識與計畫,只讓模型負責逐步執行操作。在這種受控條件下,研究發現,即便不涉及推理與規劃,模型在長程任務中依然容易失敗,其根本原因在於執行環節的錯誤逐步累積。

① 隨著任務步數的增加,模型的單步準確度會因「自我條件效應」而下降,先前的錯誤會汙染後續判斷,形成連鎖效應。

② 儘管單步準確度的提升看似呈現「收益遞減」的趨勢,但在複合效應下,這種微小改進可以被放大,帶來可執行任務長度的指數級增長。

02 LLM 推理「養兵千日」,指揮官「用兵時刻」還不到位?

1、目前來看,大型模型推理預測能力的溢出仍沒有完全被「消化」,在各類現實情境的運用都還有很大的優化空間。

2、此前,FutureX-S&P500 實驗的研究者在 2025 年 Q2 財報發布前,讓不同的 LLM 智慧代理人預測標普 500 成分股的核心財務數據,並將預測結果與華爾街分析師的共識預測和實際財報數據進行了對比。[2-4]

3、實驗結果表明,現有頂尖模型在約 40% 的公司財報預測中,能夠超越華爾街分析師的表現。更重要的是,在部分案例中,智慧代理人已經展現出初步的財務邏輯感知能力和前瞻性判斷力。[2-5]

主標籤:大型語言模型

次標籤:推理能力長程任務FutureX 基準動態評測


上一篇:剛才,GPT-5首次通過「哥德爾測試」!破解三大數學猜想

下一篇:極其重要,文件智能中的LLMs:綜述、進展、和未來趨勢

分享短網址