Mamba 架構登上頂級會議 ICLR 2026，AI 大腦核心 Transformer 的王座還能坐穩嗎？

Transformer 統治了 AI 大模型領域。有人認為，實現 AGI，Transformer 就夠了！

還有人認為，還需要幾次底層架構革新。例如，華為《智慧世界-2035》報告裡就曾提及。

隨著模型訓練、部署規模和計算需求的爆炸式增長，我們發現，算力與能源需求就像無底洞。那麼，該如何才能讓 AI 既聰明、又便宜，還能跑得快？

Transformer 架構的計算複雜度與序列長度的平方成正比。若要處理的文本長度增加一倍，計算量就要翻四倍。同時，它的記憶體佔用也隨著序列長度線性增長。用它來實現 AGI，所需的能源與算力需求簡直難以想像。

學術界和工業界都在尋找出路。

Mamba 登上了舞台。Mamba-3 目前正在頂級會議 ICLR 2026 接受雙盲審查。

它沒有選擇在 Transformer 的框架上修修補補，而是另闢蹊徑，從一個更古老也更基礎的理論——狀態空間模型（SSM）中找到了靈感。

Mamba-3 的故事，本質上是一個關於效率與智慧的權衡與進化。它從推論效率這個最實際、最要命的問題出發，引入了三個改進：一個更具表現力的遞迴方式，一套更聰明的狀態更新規則，以及一個更能榨乾硬體性能的多輸入多輸出（MIMO）架構。

Mamba-3 到底玩了什麼新花樣？它又如何與 Transformer 競爭呢？

萬丈高樓平地起

要理解 Mamba-3 的精妙，先聊聊什麼是狀態空間模型（SSM）。

這個概念最早並不是為自然語言處理（NLP）準備的，它的老本行是預測連續變化的系統，比如電路裡的訊號，氣象雲圖的變幻，或者一個運動物體的飛行軌跡。從數學和概念上講，它和遞歸神經網路（RNN）是近親，都是那種一步一步處理序列，並保留一個「記憶」來影響下一步決策的模型。

顧名思義，SSM 的核心是「狀態空間」。你可以把它想像成一個描述系統當前所有狀況的快照，裡面包含了所有關鍵變數。SSM 的工作就是接收一個輸入序列 x(t)，把它映射到一個看不見的潛在狀態 h(t)，這個 h(t) 就好像是 RNN 裡的隱藏狀態，然後根據這個狀態預測出輸出 y(t)。

所有 SSM 都圍繞著兩個核心方程式運轉：

狀態方程式：h'(t)=A*h(t)+B*x(t)
輸出方程式：y(t)=C*h(t)+D*x(t)

這裡的 A, B, C, D 四個參數，通常是權重矩陣，它們定義了系統的動態。在控制理論這些傳統領域，這些矩陣是固定的，代表一個已知的系統。而在深度學習裡，它們變成了需要透過訓練來最佳化的參數，由神經網路的可學習權重來表示。

SSM 的經典型態是為連續訊號設計的，但我們處理的文本、圖片、聲音，在電腦裡都是離散的資料。這就需要一個「離散化」的步驟。

你可以把離散化想像成對一個連續流動的訊號進行週期性取樣。這個過程引入了一個新參數，叫做步長（Δ），它決定了我們多久取一次樣。離散化的方法有很多種，但包括 Mamba 在內的大多數現代 SSM 都用了一種簡單的方式，叫零階保持（ZOH）。

經過離散化，SSM 就能像 RNN 一樣處理序列資料了。

但是，早期的離散 SSM 並不實用，因為它繼承了 RNN 的一些老毛病，比如訓練效率低，而且記性不好，很難捕捉序列裡距離很遠的兩個元素之間的關係，也就是所謂的「長距離依賴」問題。

轉機出現在 2021 年，一個叫 Albert Gu 的研究者和他的同事們提出了結構化狀態空間序列模型，簡稱 S4。這個工作為後來的 Mamba 鋪平了道路。

S4 模型做了兩件大事。

第一是透過卷積實現高效訓練。離散 SSM 雖然在推論時像 RNN 一樣快，但訓練起來卻奇慢無比。S4 的作者們發現，由於 SSM 只涉及線性的加法和乘法運算，這一連串的遞迴操作可以展開成一個一維的卷積核。這個卷積核可以直接把輸入序列 x 一步到位地映射到輸出 y。而卷積運算，可以使用一種叫「快速傅立葉變換」的演算法來高效計算。

這就帶來了一個絕妙的好處：在訓練時，當整個輸入序列都已知的情況下，S4 可以像一個卷積神經網路（CNN）一樣，平行地、高效地進行計算；而在推論時，當我們需要一個一個地生成 token 時，它又可以變回 RNN 的型態，享受極快的速度和極低的記憶體佔用。兩全其美。

第二是透過結構化矩陣解決長記性問題。為了讓 SSM 能夠記住更久遠的資訊，S4 沒有像常規的機器學習模型那樣隨機初始化它的權重矩陣 A 和 B，而是採用了一種叫 HiPPO 的技術，從特殊的正交多項式（比如勒讓德多項式）推導出矩陣的結構。這種特殊的初始化方式，就像給模型裝上了一個記憶增強外掛，使得它在處理長序列時的性能飆升。

S4 的後續變種，比如 DSS, S5，以及我們今天的主角 Mamba 系列，雖然在具體的初始化方案上有所不同，但都保留了 HiPPO 的核心思想：給矩陣 A 和 B 施加某種結構，通常是對角結構，來保證模型能夠穩定地更新狀態，並記住長期的依賴關係。

Mamba 的進化之路

2023 年，Tri Dao 和 Albert Gu（又是他）在論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了 Mamba 架構。這是第一個在語言建模上，能與 Transformer 正面抗衡的架構。

Mamba 的核心創新有兩個。

第一個叫「選擇性狀態空間模型」。它給傳統的 SSM 裝上了一個「選擇」開關，讓模型能夠根據當前輸入的重要性，動態地決定要記住哪些歷史資訊，忽略哪些歷史資訊。這個能力，以前被認為是 Transformer 自注意力機制的專利。

第二個叫「硬體感知平行掃描」。這是一個非常工程化的最佳化，它專門針對現代圖形處理單元（GPU）的計算特性，設計了一種高效的演算法來處理 SSM 的遞迴計算，最大限度地利用硬體資源。

一年後，還是這兩位作者，又發表了一篇論文，進一步探討了 SSM 和 Transformer 之間的深層聯繫，並提出了壹個更快更強的改進版，Mamba-2。

Mamba-2 發現一大類 SSM 的計算過程，可以等價地表示為一種帶遮罩的矩陣乘法。這個發現，使得 Mamba-2 可以利用矩陣乘法的高效實現，訓練速度比 Mamba-1 提升了 50%。同時，它還支援了更大的狀態維度，讓模型能夠處理更複雜的任務，尤其是在長序列上。

現在，故事發展到了 Mamba-3。

Mamba-3 是在 Mamba-2 的基礎上，從推論效率這個角度出發，做出的又一次進化。它帶來了三個核心的方法論改進。

第一個叫「梯形離散化」。它用一種更精確的數學方法（梯形法則）來替代之前 Mamba-2 裡相對粗糙的方法（歐拉法則），來完成從連續訊號到離散序列的轉換。這個改進讓模型的遞迴更新變得更具表現力。

第二個叫「複雜狀態空間模型」。它透過引入複數來定義 SSM，使得模型的狀態更新能力大大增強，解決了許多線性模型在處理一些需要精確狀態追蹤的任務（比如數數的奇偶性）時能力不足的問題。

第三個叫「多輸入多輸出 SSM」。這是一個純粹為了提升解碼速度和硬體效率的設計。它將原本基於外積的狀態更新，改為基於矩陣乘法的更新，極大地提高了計算的「算術強度」，讓 GPU 不再「挨餓」。

Mamba-3 的新花樣

更精確的離散化：梯形法則

結構化 SSM 在理論上被定義為一個連續時間系統，但實際處理的資料都是離散的。從連續到離散的轉換，也就是離散化，是關鍵一步。

Mamba-2 用的是歐拉法則，你可以把它想像成用一個矩形的面積去近似一段曲線下的面積，它只考慮了區間的終點值。這種方法的誤差是 O(Δt²)，雖然簡單，但精確度不夠。

Mamba-3 換用了一種更高級的方法：廣義梯形法則。它不再是簡單地用矩形去近似，而是用一個梯形，同時考慮了區間的起點和終點，用一個資料相關的凸組合來連接它們。這種方法的誤差降低到了 O(Δt³)，精度整整提高了一個數量級。

Mamba-3 在進行狀態更新時，不僅考慮了當前時間步的輸入，還回看了一眼上一個時間步的輸入。這個小小的「回眸」，讓模型對序列動態的捕捉能力變得更加細膩和強大。

這個改進不僅提升了模型的表現力，還使得 Mamba-3 不再需要之前很多線性模型都依賴的一個組件——短因果卷積。這讓整個模型架構變得更加簡潔和統一。

更聰明的狀態更新：複數與旋轉

現代 SSM 為了追求效率，一直在簡化其核心的狀態轉移矩陣。S4 模型用的是複雜的「正規加低秩」矩陣，Mamba 把它簡化為實數對角矩陣，Mamba-2 更是簡化到了一個純量。這些簡化在語言建模任務上沒有帶來明顯的性能下降，但也削弱了模型在一些簡單狀態追蹤任務上的能力。

比如，判斷一個二進位序列裡「1」的個數是奇數還是偶數（奇偶性任務）。這個任務對於單層的 LSTM（長短期記憶網路）來說是小菜一碟，但對於狀態轉移矩陣只有實數特徵值的 Mamba-2 來說，卻難如登天。

原因在於，實數特徵值只能表示狀態的「伸縮」和「翻轉」，無法表示「旋轉」。而像奇偶性這樣的任務，其內在的狀態轉換恰恰是週期性的，就像一個開關在「開」和「關」之間切換，這在數學上最自然的表示就是旋轉。

Mamba-3 為了恢復這種能力，引入了複數。

它證明了，一個複數值的 SSM，在離散化後，等價於一個狀態維度加倍的實數值 SSM，其狀態轉移矩陣由一系列 2x2 的旋轉矩陣塊構成。

更進一步，它還證明了，這種旋轉操作可以被等效地「吸收」到輸入和輸出的投影矩陣 B 和 C 中。這最終導向了一個驚人的結論：使用複數 SSM，等價於在一個普通的、基於純量轉移的 SSM 的輸入（B）和輸出（C）上，應用了一種資料相關的旋轉位置嵌入（RoPE）。

RoPE 在很多大模型（比如 Llama）裡都在用，它透過給詞向量注入絕對或相對的位置資訊來幫助模型理解語序。Mamba-3 在這裡做的，是把 RoPE 從一個「資料無關」的、固定的位置編碼，變成了一個「資料相關」的、動態的狀態旋轉器。

這個被作者稱為「RoPE 技巧」的實現，讓 Mamba-3 用極小的計算開銷，就獲得了強大的狀態追蹤能力，能夠輕鬆解決奇偶性、模運算等 Mamba-2 無法完成的任務。

更極致的硬體效率：從外積到矩陣乘法

在自迴歸生成（也就是一個詞一個詞地往外蹦）的場景下，性能通常用每秒生成的 token 數（TPS）來衡量。在這個指標上，像 Mamba 這樣的模型，因為只有一個固定大小的隱藏狀態，而不需要像 Transformer 那樣維護一個隨序列長度線性增長的 KV 緩存，所以具有天然的優勢。

但是，TPS 這個指標沒有考慮到硬體效率。一個更底層的指標是「算術強度」，它定義為一次操作的浮點運算次數（FLOPs）與為此移動的資料位元組數的比值。

現代的 GPU，就像一個超級強大的計算工廠，它的計算能力（ops）遠遠超過了它的資料搬運能力（byte）。如果算術強度太低，GPU 就會把大量時間浪費在等待資料從記憶體裡搬運過來的路上，而不是在真正地進行計算。這種情況，我們稱之為「記憶體受限」。

Mamba-2 的狀態更新是一個外積操作。它的算術強度是一個常數，遠低於現代 GPU 的理想值。這意味著，在解碼時，Mamba-2 並不能充分發揮出 GPU 的威力。

Mamba-3 做了一個看似簡單卻異常有效的改動。它把狀態更新從外積改成了矩陣乘法。

這在訊號處理的語境裡，恰好對應著從單輸入單輸出（SISO）系統到多輸入多輸出（MIMO）系統的泛化。

在 MIMO 公式下，算術強度與一個新引入的秩 r 成正比。透過調整 r 的大小，我們就可以靈活地提高算術強度，將解碼過程從「記憶體受限」推向「計算受限」，從而更充分地利用硬體，獲得更高的 TPS。這個過程甚至不增加推論時的記憶體佔用（狀態 H 的大小不變）。

這三板斧，共同構成了 Mamba-3 的核心混合器（Mixer）原語。整個 Mamba-3 的架構也進行了一些調整，交替使用 Mamba-3 塊和 SwiGLU 塊，並採用了預歸一化。

架構性能大比拼

在語言建模性能上，論文作者們使用 FineWeb-Edu 資料集的 1000 億個 token，對 Mamba-3 以及 Transformer、Gated DeltaNet 和 Mamba-2 等基準模型，在 180M、440M、820M 和 1.5B 四種不同參數規模上進行了預訓練。

結果顯示，在所有模型規模上，Mamba-3 在各種下游任務上的表現都全面領先。

在檢索能力方面，也就是從長文本中精確查找資訊的能力，Transformer 由於其可以無損回顧所有歷史資訊的 KV 緩存機制，仍然具有優勢。這是所有固定狀態大小模型的共同短板。

實驗表明，Mamba-3 在關聯回憶和問答這類任務上表現不錯，但在需要從半結構化或非結構化資料中提取資訊的任務上表現不佳。不過，在合成的「大海撈針」（NIAH）任務上，Mamba-3 的表現超越或持平了基準，並且展現出了比 Mamba-2 更好的泛化能力。

推理效率：

在常用的 bf16 精度和 128 狀態維度設定下，Mamba-3 的 SISO 和 MIMO 版本都比 Mamba-2 和 Gated DeltaNet 要快。

這張圖則更直觀地展示了 Mamba-3 的優勢。橫軸是狀態大小（可以看作是推論速度的代理，越小越快），縱軸是預訓練困惑度（模型性能的代理，越低越好）。Mamba-3 MIMO 版本在不增加狀態大小（也就是不犧牲速度）的前提下，將性能-效率的帕累托前沿又向前推進了一步。

最後，消融實驗驗證了 Mamba-3 各項改進的有效性。

梯形離散化和引入的偏置項協同作用，顯著提升了模型性能。而在狀態追蹤任務上，擁有 RoPE 的 Mamba-3 幾乎完美地解決了奇偶性和模運算任務，而沒有 RoPE 的 Mamba-3 和 Mamba-2 則表現得和隨機猜測差不多。

Mamba-3 的故事，是關於如何在計算效率和模型能力之間尋找更優解的探索。

在需要無損記憶和精確檢索的長文本任務上，固定大小的狀態記憶機制，依然是它相較於 Transformer 的軟肋。作者也坦言，將 Mamba-3 與外部的檢索機制相結合，建構混合架構，或許是未來的一個重要方向。

你覺得 Mamba-3 會取代 Transformer 嗎？還是一個有益的補充？

參考資料：

https://openreview.net/pdf/a4e02db9a98e8b5cb40d677e00e4c8017a282772.pdf

https://openreview.net/forum?id=HwCvaJOiCj

https://www.ibm.com/think/topics/state-space-model

https://www.ibm.com/think/topics/mamba-model

https://goombalab.github.io/blog/2024/mamba2-part1-model

https://jalammar.github.io/illustrated-transformer