微軟等提出「模型鏈」新範式，與Transformer效能相當，擴展性與靈活性更佳

機器之心報導

編輯：陳陳

隨著大型語言模型（LLM）的出現，擴展Transformer架構已被視為徹底改變現有AI格局並在眾多不同任務中取得最佳效能的有利途徑。因此，無論是在工業界還是學術界，探索如何擴展Transformer模型日益成為一種趨勢。

在此背景下，LLM 的參數規模呈現指數級成長，從數十億級成長到數萬億級。因此，其爆炸式成長的參數規模也為訓練帶來了極其昂貴的負擔，並且無法針對不同的部署環境提供不同的推論用途。

鑑於這種日益成長的擴展定律，如何開發和有效利用 LLM 來處理各種情境中的使用者指令，已成為整個社群面臨的一個開放且關鍵的挑戰。

目前，擴展 LLM 架構存在以下問題：

與人類智能能夠漸進式獲取新知識不同，現有的擴展策略無法保留已有知識規模，總是需要從頭開始訓練，導致效率低下。
現有 LLM 架構（如密集模型或 MoE）始終啟用固定規模的參數，缺乏動態適應問題解決能力的機制。

本文，來自微軟、復旦大學、浙江大學以及上海科技大學的研究者提出了一個新的概念：CoR（Chain-of-Representation，表徵鏈），它將表徵範疇的範圍泛化到更廣泛的領域。

論文標題：Chain-of-Model Learning for Language Model
論文地址：https://arxiv.org/pdf/2505.11820

具體而言，本文觀察到任何表徵總是可被視為隱藏維度上多個子表徵的組合。因此，本文將這種組合定義為表徵鏈，每個子表徵對應一條鏈。基於此定義，透過使用不同數量的前導鏈（preceding chains），其對應的特徵可用於編碼不同的知識（稱之為 scale），如圖 1 所示。

因此，如何在 CoR 特徵之間建立連接以確保跨尺度的特徵轉換是非常關鍵的。

為了實現這一目標，本文接著提出了一種名為模型鏈（Chain-of-Model，CoM）的新型學習範式，用於建模 CoR 特徵。

其核心思想是在不同尺度之間引入因果依賴關係，確保每個尺度只能使用其前面尺度的資訊。為此，本文提出了鏈式層（Chain-of-Layer，CoL），以基於 CoR 特徵重新建構當前的網路層。

在 CoM 框架的基礎上，本文將 CoL 的思想應用於 Transformer 的每一層，重新建構了語言模型架構，並將其命名為語言模型鏈（CoLM）。

此外，基於 CoL 準則，本文在注意力模組中進一步引入了鍵值共享機制，該機制要求所有鍵和值都在第一個鏈中進行計算，並將其命名為 CoLM-Air。基於此機制，CoLM-Air 提供了更高的可擴展性和靈活性。

多個基準測試實驗結果表明，CoLM 系列模型能夠達到相當的效能，同時展現出更好的可擴展性和靈活性。

方法介紹

首先是表徵鏈的定義：

據定義 1，每個鏈對應於 CoR 中的每個子表徵，透過啟用前幾個鏈，CoR 可用於編碼尺度。因此，CoR 允許在單一表示中編碼 n 個不同的尺度。如果 n=1，CoR 與原始表示相同。圖 1 展示了 CoR 的概念。

基於上述定義，現在面臨的一個挑戰是如何設計層來建立 CoR 輸入和 CoR 輸出之間的連接，從而實現多尺度特徵轉換，同時又能保持輸出特徵符合定義 1 中 CoR 的標準。

這就需要保證每個尺度只能利用其所有前一個尺度的資訊，並同時引入 Chain-of-Layer 將因果關係融入 CoR 的隱藏狀態中，如下所示：

其中，CoL 具有三個基本屬性——普遍性、因果性與組合性。

最重要的是，CoL 支持組合性，這意味著堆疊多個 CoL 層也能保留 CoL 的特性。這一特性能夠將 CoL 的範圍從層級推廣到模型級。

接著本文又給出了第三個定義

根據定義 3，如果一個模型滿足了 CoM 的標準，那麼它也繼承了 CoL 的所有屬性，例如通用性與因果關係。換句話說，任何模型都可以被視為一種 CoM（即 n = 1）。CoM 可以將不同規模的多個子模型整合到一個模型中，並能在現有模型的基礎上進行擴展。這種能力直接賦予了基礎模型更好的可擴展性與靈活性。

接著，文章詳細描述了如何將 CoM 應用於語言模型，包括 Linear、Transformer 中的每個模組（例如，嵌入、自注意力、前饋、歸一化）以及目標函數，並將其稱為 CoLM（Chain-of-Language-Model）。此外，本文進一步引入了一種基於 CoLM 框架的鍵值共享機制，並將其稱為 CoLM-Air，它提供了更好的靈活性。

圖 2 描述了線性層和 Chain-of-Linear 層的比較。

圖 3 說明了注意力和注意力鏈的區別：

對這部分內容感興趣的讀者，可以參考原論文了解更多內容。

實驗結果

表 1 結果表明，CoLM 取得了與基準相當的結果，同時提供了更快的預填充速度和更高的靈活性。

考量到 CoM 的通用性與因果性，任何模型在鏈數為 1 時均可視為 CoM 的特例，並可擴展至多鏈結構。因此，本文提出鏈式擴展（Chain Expansion）方法：以訓練完備的模型作為初始鏈，透過新增鏈進行擴展。

為驗證這一觀點，本文選擇了兩個 LLaMA 變體（即 TinyLLaMA-v1.1 和 LLaMA-3.21B）作為擴展的初始鏈。

表 2 結果表明，與 TinyLLaMA-v1.1 和 LLaMA-3.2-1B 相比，本文分別實現了 0.92 和 0.14 的提升。由於 LLaMa-3.2-1B 是更強的基準，因此需要更多計算才能獲得顯著提升，但本文方法在有限的計算量下仍然可以對其進行改進。總體而言，這些結果也表明，即使在資源受限的情況下，本文方法在改進基準方面仍然有效。

彈性推論旨在提供動態推論能力以滿足不同部署場景的需求。表 3 結果進一步凸顯了 CoLM 在實現彈性推論方面的潛力。

從圖 5 可以看出，在參數量相近的情況下，CoLM-Air 相比 LLaMa 實現了更快的預填充速度。隨著序列長度的增加，CoLM-Air 在預填充階段能獲得更顯著的速度提升。這充分證明了 CoLM-Air 能有效加速預填充過程。

得益於 CoM 架構的因果特性，CoLM 由多個鏈式模組組成，其中每個鏈都能繼承前序鏈的能力。基於這一特性，本文提出鏈式調優（Chain Tuning）方法——在凍結前幾個鏈的同時僅對後續鏈進行微調。該方法透過保留初始鏈參數，既能降低約 42% 的調優成本，又可有效緩解災難性遺忘問題。

此外，當採用 CoLM-Air 配置並凍結首鏈時，經微調模型產生的鍵值對可無縫遷移至原始模型，無需額外計算。實驗表明，鏈式調優僅需微調約 42% 的模型參數即可提升效能，且能與 LoRA 等參數高效微調方法相容。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

微軟等提出「模型鏈」新範式，與Transformer效能相當，擴展性與靈活性更佳

分享短網址