中科院自動化所最近發布了一個突破性專案:SpikingBrain,號稱是「類腦大模型」。
簡單來說,就是將大腦神經元的工作方式引入AI模型。人腦神經元是「不活化就不工作」的,有訊號時才會放電,這就是所謂的「脈衝」(Spiking)機制。
傳統的Transformer模型有個致命問題:序列越長,計算量呈平方級增長。處理一本書的內容,可能要等上半天。
SpikingBrain採用了三種方法解決這個問題:
1. 線性注意力機制將原本O(n²)的計算複雜度降到O(n)。處理100萬個token,原本需要計算1萬億次,現在只需100萬次。
2. 脈衝編碼將連續的數值變成離散的脈衝。例如數字5,不是直接計算5 × 權重,而是發出5個脈衝,每個脈衝只進行加法。據測算,這能節省97.7%的能耗。
3. 混合專家(MoE)76B參數的模型,每次只活化12B。就像人腦不同區域負責不同功能,並非所有神經元都同時工作。
他們發布了兩個模型:
- SpikingBrain-7B:純線性模型
- SpikingBrain-76B:混合模型(實際活化12B)
在4M token(約400萬字)的輸入下,7B模型的首字生成時間(TTFT)比原版Qwen2.5快了100倍以上。1秒對比100秒,差距非常巨大。
更有趣的是,他們只用了150B token進行訓練(原模型需要10T),相當於2%的資料量,但效能達到了原模型的90%。
這個專案還有個特殊意義:全程在沐曦(MetaX)的國產GPU上訓練。
沐曦C550 GPU叢集連續運作兩週沒有中斷,訓練了76B參數的模型。這證明了非NVIDIA平台也能訓練大型模型。
他們改寫了大量CUDA程式碼,適配了Triton運算子,還專門最佳化了通訊框架。MFU(模型浮點利用率)達到23.4%,在國產硬體上算是相當不錯的成績。
這項技術最適合兩個情境:
1. 超長文本處理法律文書、學術論文、小說創作這類需要處理幾十萬字的應用,速度優勢非常明顯。
2. 邊緣設備部署他們將1B模型部署到CPU上,在256k序列長度下速度提升15倍。手機、嵌入式設備都能執行。
這項工作有幾點值得思考:
首先,不一定要死守Transformer。線性注意力雖然理論上不如二次注意力精確,但實際應用中差距沒有那麼大。
其次,生物啟發還是有用的。大腦用100瓦功率就能思考,GPU動輒幾千瓦,差距實在太大了。脈衝機制提供了一個降低功耗的思路。
最後,國產替代不再是夢想。雖然和NVIDIA仍有差距,但至少證明了可行性。