機器之心報導
編輯:澤南、冷貓
大型模型的架構,要徹底進化了?
昨晚開始,AI 圈都在研究一個神奇的新物種 —— Code World Model(CWM)。
Meta 重組後的 AI 部門推出的首個重磅研究,是一個世界模型,用來寫程式碼的。
它和「傳統」的大型語言模型(LLM)思路不同,理論是這樣的:
當人類進行規劃時,我們會在腦海中想像不同行動可能帶來的結果。當我們推論程式碼時,我們會在心中模擬其部分執行過程。當前一代的大型語言模型在這方面表現不佳,往往難以做到真正的推論和模擬。那麼,一個經過顯式訓練的程式碼世界模型(Code World Model)是不是能夠開啟新的研究方向呢?
Meta 剛發布的這個 CWM,是一個 320 億參數的開放權重 LLM,以推動基於世界模型的程式碼生成研究。
CWM 是一個稠密、僅解碼器架構的 LLM,支援最長 131k tokens 的上下文長度。獨立於其世界建模能力,CWM 在通用程式設計與數學任務上表現出強大性能:
SWE-bench Verified(含測試時擴展):pass@1 65.8%
LiveCodeBench:68.6%
Math-500:96.6%
AIME 2024:76.0%
可見,雖然 CWM 的絕對性能還不算太高,但它在 30B 級別模型的橫向對比上性能已算不錯。
SWE-bench Verified pass@1 分數
為了提升程式碼理解能力,而不僅僅局限於從靜態程式碼訓練中學習,Meta FAIR CodeGen 團隊在 Python 解釋器和智慧體式 Docker 環境中使用了大量觀測 - 動作軌跡進行中期訓練(mid-train),並在可驗證編碼、數學和多輪軟體工程環境中進行了大規模多任務推論強化學習(RL)。
為支援進一步的程式碼世界建模研究,Meta 開放了模型在 中期訓練(mid-training)、SFT 和 RL 階段的檢查點。
論文標題:CWM: An Open-Weights LLM for Research on Code Generation with World Models
模型權重:https://ai.meta.com/resources/models-and-libraries/cwm-downloads/
HuggingFace:https://huggingface.co/facebook/cwm
借助 CWM,Meta 提出了一個強大的測試平台,以探索世界建模在改進程式碼生成時的推論與規劃能力方面的機會。
該研究展示了世界模型如何有益於智慧體式編碼,使得 Python 程式碼執行能夠逐步模擬,並展示了推論如何從這種模擬中受益的早期結果。
在此研究中,Meta 似乎從傳統開發的過程中汲取了靈感。優秀程式設計師會在動手寫程式碼之前先在腦內推演,而現在基於大型語言模型的程式碼生成工具,是在基於海量數據生成對相關程式碼的「模仿」。看起來像是對的,和真正理解寫出的程式碼之間總會有點落差。
一個明確訓練的程式碼世界模型,應該能夠預測自己行為的後果,進而作出判斷實現有效的決策。
有一個很有意思的例子,大型模型總是會犯些低級錯誤,比如數不清楚「strawberry」裡有幾個「r」。
而採用 CWM,就可以對一段統計 "strawberry" 中字母 "r" 的程式碼執行過程進行追蹤。可以將其類比為一個神經版的 pdb —— 你可以將其設置在任意初始幀狀態下,然後推論過程就能夠在 token 空間中呼叫這一工具來進行查詢。
CWM 的 Python 追蹤格式。 在給定原始程式碼上下文與追蹤起始點標記的情況下,CWM 預測一系列的呼叫堆疊框架,表示程式狀態及相應的執行動作。
CWM 模型基於大量編碼數據和客製化的 Python + Bash 世界建模數據進行訓練,使其能夠模擬 Python 函數的執行以及 Bash 環境中的智慧體互動。
在 Meta 進行的更多實驗中,CWM 在有無測試時擴展(tts)的情況下均達到了同類最佳性能,分別取得了 65.8% 和 53.9% 的成績。需要注意的是,GPT-oss 的分數是基於 500 道題中的 477 道子集計算得出的。
CWM 與基準模型在 Aider Polyglot 上的結果,取自官方排行榜。
Terminal-Bench 上 CWM 與各基準模型の結果,取自官方排行榜。
BigOBench 結果
在時間與空間複雜度的預測和生成兩類任務上,將 CWM 與 Qwen3-32B(帶推論能力)、Qwen3-coder-30B 以及 Gemma-3-27B 進行了對比。在時間複雜度預測與生成的全部指標上,CWM 均超越了基準模型。在空間複雜度生成方面,CWM 在僅程式碼模式下的 pass@1 上取得最佳成績,並在其餘指標中排名第二。
Meta 團隊的願景是讓程式碼世界模型彌合語言層面的推論與可執行語義之間的鴻溝。
消融實驗已經表明,世界建模數據、Python 執行軌跡以及可執行的 Docker 環境,能夠直接提升下游任務表現。更廣泛地說,CWM 提供了一個強有力的試驗平台,支援未來在零樣本規劃、具身鏈式思考、以及稀疏且可驗證獎勵的強化學習等方向的研究。
世界模型應當能夠改進強化學習,因為那些已經熟悉環境動態的智慧體,可以更專注於學習哪些動作能夠帶來獎勵。儘管如此,要在預訓練階段跨任務地持續發揮世界模型的優勢,仍需要進一步研究。最終,能夠推論自身動作後果的模型,將在與環境的互動中更為高效,並有望擴展其能夠處理的任務複雜度。
更多細節,請參閱原論文。