字節Seed新方法！開源8B程式碼模型：自己篩數據訓練自己，同量級SoTA，還能超越百億級對手

你是否想過，LLM訓練自己的數據，還能比人類篩選的更有效率？傳統code大模型依賴人工制定規則篩選數據，成本高、效率低，還容易帶偏模型。

論文：Seed-Coder: Let the Code Model Curate Data for Itself

鏈接：https://github.com/ByteDance-Seed/Seed-Coder/blob/master/Seed-Coder.pdf

而Seed-Coder團隊直接“讓LLM自己當老師”，用模型篩選數據訓練自己，打造出一系列8B參數的輕量級開源程式碼模型，性能甚至超越百億級對手！

Seed-Coder

1. 自給自足的數據工廠傳統模型依賴人工規則過濾程式碼數據，比如“必須包含註解”“不能有語法錯誤”。但程式設計師審美各異，規則容易打架，擴充套件性差。Seed-Coder的解決方案很“暴力”：讓另一個LLM當裁判！團隊訓練了一個“程式碼品質評分器”，用LLM從可讀性、模組化、清晰度、複用性四個維度給程式碼打分，自動過濾低品質數據。

2. 小身材大智慧的模型架構Seed-Coder基於Llama 3架構，8.2B參數：

長上下文支持：通過倉庫級程式碼拼接，模型能處理32K超長程式碼檔案，輕鬆應對複雜專案。

填空訓練法（FIM）：把程式碼隨機拆成前綴、中綴、後綴，讓模型學會“補全中間缺漏”，提升程式碼補全能力。公式如下：<[fim-suffix]> SUFFIX <[fim-prefix]> PREFIX <[fim-middle]> MIDDLE

這種訓練讓模型像玩拼圖一樣學習程式碼邏輯，效果遠超傳統單模式訓練。

3. 推理能力的訓練法Seed-Coder的推理模型用長思維鏈強化學習（LongCoT），專攻多步驟複雜編碼問題。簡單說，就是讓模型先寫解題思路，再生成程式碼，並通過反覆試錯最佳化邏輯鏈。比如解演算法題時，模型會先拆分問題：“第一步讀輸入，第二步排序，第三步計算極差……”再一步步寫程式碼。這種“先想後做”的策略，讓它在競賽級題庫中表現驚豔。