近期,快手 Kwaipilot 團隊推出了 KAT 系列兩款突破性 Agentic Coding 大模型:開源 32B 參數模型 KAT-Dev-32B 與閉源旗艦模型 KAT-Coder。
這兩款模型在 Code Intelligence 領域分別展現出輕量級的超強表現和極致效能。其中,在 SWE-Bench Verified 上,KAT-Dev-32B 展現出強勁效能並取得了 62.4% 的解決率,在所有不同規模的開源模型中排名第 5。與此同時,KAT-Coder 以 73.4% 的解決率在 SWE-Bench Verified 上取得了極佳的單模型表現,媲美全球頂尖的閉源模型。
圖 1:在 SWE-Bench Verified 上,與全尺寸開源模型相比,KAT-Dev 以極小的模型尺寸取得了第一梯隊的效能
圖 2:在 SWE-Bench Verified 上,KAT-Coder 取得了極佳的單模型表現,媲美全球頂尖的閉源模型效能
模型開源與 API 開放
KAT-Dev-32B 已在開源模型託管平台 Hugging Face 上線,可供進一步研究和開發使用。KAT-Coder 模型的 API 密鑰近期也在「快手萬擎」企業級大模型服務與開發平台上開放申請,用戶將能夠透過 Claude Code 等工具直接存取並進行編碼。
快手 Kwaipilot 團隊的官方技術部落格:https://kwaipilot.github.io/KAT-Coder/
KAT-Dev-32B 模型開源位址:https://huggingface.co/Kwaipilot/KAT-Dev
KAT-Coder 開發工具接入指南:https://www.streamlake.com/document/WANQING/me6ymdjrqv8lp4iq0o9
KAT-Coder API Key 申請:https://console.streamlake.com/wanqing/
核心貢獻點摘要
KAT-Dev-32B 和 KAT-Coder 在多個訓練階段進行了創新與最佳化,包括 Mid-Training 階段、監督微調 (SFT) 階段、強化微調 (RFT) 階段,以及大規模智能體強化學習 (RL) 階段,具體如下:
Mid-Training:Kwaipilot 團隊發現,在這一階段大量增加工具使用能力、多輪互動和指令遵循的訓練,雖然在當前結果上(例如在 SWE-bench 等排行榜)可能不會帶來顯著的效能提升,但對後續的 SFT 和 RL 階段具有重大影響。
SFT & RFT:團隊在 SFT 階段精心策劃了八種任務類型和八種程式設計場景,以確保模型的泛化能力和綜合能力。此外,在 RL 之前,創新性地引入了 RFT 階段,使用人類工程師標註的「教師軌跡」作為訓練期間的指導。
大規模 Agentic RL:目前,擴展智能體 RL 面臨三個挑戰:非線性軌跡歷史的高效學習、利用內在模型訊號以及建構可擴展的高吞吐量基礎設施。對此,Kwaipilot 團隊透過對數機率計算的前綴快取(Log-Probability Prefix Caching)、基於熵的軌跡剪枝(Entropy-based Tree Pruning)和自研的工業級規模強化學習訓練框架 SeamlessFlow 來解決這些問題。
KAT 系列模型的核心技術路線
一、Mid-Training
Kwaipilot 團隊對經過預訓練的模型進行了兩階段訓練,該階段被稱為 Mid-Training。在其中的第一個階段,增強了模型與「LLM-as-Agent」相關的全方位能力,包括但不限於以下幾種能力:
工具呼叫能力:建構了在沙盒環境真實執行工具的呼叫方法以及執行結果的互動資料,用於提升模型的工具呼叫能力;
多輪互動能力:建構了最長數百輪的人類、模型、工具的互動資料,用於提升在長文本情況下模型的多輪互動能力;
編碼知識注入:加入了高品質的與編碼相關的領域知識資料,用於進一步增強模型在編碼場景下的效能;
Git Commit 資料:加入了大量來自於真實 Git 儲存庫的 PR 資料,用於進一步提升模型在真實程式設計任務下的表現;
指令跟隨資料:收集了 30+ 類常見的使用者指令,用於增強模型對使用者指令的理解能力;
通用及思考資料:建構了多類通用資料,用於增強模型在通用領域以及在呼叫工具時進行思考的能力。
二、監督微調 (Supervised Fine-Tuning, SFT)
在第二階段,Kwaipilot 團隊收集了大量人類工程師標記的真實需求交付軌跡,並基於此合成了大量的軌跡資料,進一步對模型進行訓練,以增強其端到端需求交付的能力。其中涵蓋了多種任務類型:
八大使用者任務類型:
Feature Implementation(功能實現)
Feature Enhancement(功能增強)
Bug Fixing(缺陷修復)
Refactoring(結構最佳化)
Performance Optimization(效能最佳化)
Test Case Generation(測試用例生成)
Code Understanding(程式碼理解)
Configuration & Deployment(配置與部署)
八大使用者程式設計場景:
Application Development(應用程式開發)
UI/UX Engineering(使用者介面與使用者體驗工程)
Data Science & Engineering(資料科學與工程)
Machine Learning & AI(機器學習與人工智慧)
Database Systems(資料庫系統)
Infrastructure Development(基礎設施開發)
Specialized Programming Domains(專業程式設計領域)
Security Engineering(安全工程)
三、強化微調(Reinforcement Finetune,RFT)
在這一階段,Kwaipilot 團隊在強化學習流程的基礎上,額外引入了多個 ground truth 用於軌跡探索的指導,提升 rollout 效率,從絕對 reward 到衡量與 ground truth 的差異,提升了強化學習階段的效率和穩定性。
從直接給定絕對 reward 更新為衡量 rollout 樣本和 ground truth 之間的相對差異,給了強化學習更穩定和更準確的獎勵訊號,同時也會在 rollout 階段即時監督樣本的正確性,並及時終止與 ground truth 有明顯偏離的樣本生成,這也給強化學習帶來了更高的樣本效率。
圖 3:在強化微調(RFT)流程中,引入教師軌跡作為指導
經過三階段的訓練,團隊獲得了為 RL 階段準備的冷啟動模型,RFT 的加入也為 SFT 和 RL 之間建構了橋樑。
Mid-Training:首先,團隊教會大型模型各種基本技能,包括如何使用工具、如何理解使用者意圖等;
SFT:其次,用高品質的軌跡資料,讓模型學習如何執行真實的下游任務;
RFT:最後,在模型準備「自由探索」之前,先由教師軌跡手把手教會模型如何探索,保障了模型後續在 RL 階段的穩定性。
四、大規模 Agentic RL
1、基於熵的樹剪枝(Entropy Based Tree Pruning)
Kwaipilot 團隊發現,即便使用上述技術,對完整樹中的所有 token 進行訓練的成本仍然過高,因此亟需設計一種能夠優先聚焦於攜帶最強訓練訊號節點的機制。
為此,團隊將軌跡壓縮成一個前綴樹,其中每個節點表示一個共享前綴,每條邊對應一段 token。在固定的計算預算下,目標是只保留最有價值的節點進行訓練。團隊基於樹中聚合的熵訊號和節點被到達的可能性來估計節點的資訊量,並按照重要性順序擴展節點來剪枝樹,直到預算耗盡。額外的啟發式方法確保保留結構上的重要區域(例如,工具或記憶體事件),並維護局部上下文以穩定訓練。這種基於熵的剪枝大幅減少冗餘計算,同時保留大部分有效的訓練訊號,從而實現顯著的吞吐量提升和更低的總體成本。
2、RL infra:自研 SeamlessFlow 框架
圖 4:Kwaipilot 團隊自研的 RL 訓練框架 SeamlessFlow 架構
為擴展 RL,必須將 RL 訓練與智能體的多元化內部邏輯完全解耦,同時最大化異構計算架構的利用率。遵循 SeamlessFlow 的設計,Kwaipilot 團隊在智能體和 RL 訓練之間設計了一個專門用於軌跡樹管理的中間層,確保兩者之間的嚴格分離。此外,採用提出的標籤驅動調度機制來協調異構叢集中的任務分配,從而最小化管道氣泡並維持高吞吐量訓練。
3、統一環境介面和企業級 RL 資料建構
Kwaipilot 團隊還透過統一不同 RL 執行環境的部署和評估介面,使任何新添加的環境都能以低成本無縫整合。這種統一設計為跨異構資料源和任務類型擴展 RL 訓練奠定了堅實基礎。具體到軟體開發場景,團隊聚焦於三個基本元件:與相應分支程式碼配對的問題描述、可執行環境和可驗證的測試用例。
Kwaipilot 團隊從開源儲存庫收集拉取請求和相關問題,並根據這些儲存庫的星標、PR 活動和問題內容過濾低品質資料,隨後系統地為每個收集的實例建構可執行環境影像並生成單元測試用例。除了軟體工程資料,團隊還納入了其他可驗證領域,如數學和推理任務,進一步豐富了 RL 訊號的多樣性。
更重要的是,除了開源資料,團隊還進一步收集並利用來自真實世界工業系統的匿名企業級程式碼庫進行 RL 訓練。與僅在公共儲存庫(如 GitHub 上的儲存庫)上訓練不同,這些儲存庫通常包含較簡單的專案,而這些大規模、複雜的程式碼庫——跨越多種程式設計語言並代表真實的業務邏輯——讓模型接觸到更具挑戰性的開發場景,為 RL 提供了高價值的資產。訓練智能體解決這些真實世界的工業問題不僅增強了學習的穩健性,還將所得模型的程式設計能力建立在現實的生產級環境中。
圖 5:在 SWE-Bench Verified 上,各階段訓練對模型的效能影響
模型效果展示
KAT-Coder 模型具備強大的程式碼生成能力,可獨立完成完整的專案開發,透過呼叫程式設計工具可實現從互動式遊戲到程式碼重構等多樣化程式設計任務。使用者僅需描述需求,模型即可交付完整的程式碼解決方案。
1、星空效果
2、水果忍者🥷
3、程式碼重構
大規模 Agentic RL 後的湧現能力
對經過大規模 Agentic RL 訓練後的模型進行分析,Kwaipilot 團隊觀測到了兩個顯著的湧現現象:
對話輪次顯著降低:模型傾向於用更少的互動輪次完成任務,相較於 SFT 模型,平均對話輪次下降了 32%;
多工具平行呼叫:模型展現出同時呼叫多個工具的能力,而非傳統的串行呼叫。
團隊推測,這源於軌跡樹結構帶來的隱式最佳化壓力,使模型自然形成效率偏好與平行呼叫能力。
效率偏好的形成:在軌跡樹結構中,較短的路徑(更少的對話輪次)會被更多的訓練樣本共享。這創造了一個隱式的最佳化壓力:模型傾向於學習更高效的解決方案;
平行化的自然選擇:在樹結構中,多工具平行呼叫創造了更多的分支可能性,這些分支在訓練時被獨立處理,使得模型能夠同時探索多個工具組合。同時熵剪枝機制(Long-term Entropy Pruning)保留了資訊量較大的節點,而多工具呼叫節點往往具有更高的熵值,使模型逐漸學會了「批次處理」思維。
未來展望
Kwaipilot 團隊將持續探索程式碼智慧的前沿領域,開拓創新可能:
增強工具整合:與流行的 IDE、版本控制系統和開發工作流深度整合,創建無縫的編碼體驗。
多語言擴展:擴展 KAT 模型能力以涵蓋新興的程式設計語言和框架,確保全面的語言支援。
協作編碼:探索多智能體系統,讓 KAT 模型能夠在複雜的軟體專案上協同工作,實現前所未有的協作。
多模態程式碼智慧:整合視覺理解能力,處理架構圖、UI 設計、調試截圖和文件圖像以及程式碼,使開發過程更加直觀和高效。