機器之心報導
編輯:陳陳
隨著大型語言模型(LLM)的出現,擴展Transformer架構已被視為徹底改變現有AI格局並在眾多不同任務中取得最佳效能的有利途徑。因此,無論是在工業界還是學術界,探索如何擴展Transformer模型日益成為一種趨勢。
在此背景下,LLM 的參數規模呈現指數級成長,從數十億級成長到數萬億級。因此,其爆炸式成長的參數規模也為訓練帶來了極其昂貴的負擔,並且無法針對不同的部署環境提供不同的推論用途。
鑑於這種日益成長的擴展定律,如何開發和有效利用 LLM 來處理各種情境中的使用者指令,已成為整個社群面臨的一個開放且關鍵的挑戰。
目前,擴展 LLM 架構存在以下問題:
與人類智能能夠漸進式獲取新知識不同,現有的擴展策略無法保留已有知識規模,總是需要從頭開始訓練,導致效率低下。
現有 LLM 架構(如密集模型或 MoE)始終啟用固定規模的參數,缺乏動態適應問題解決能力的機制。
本文,來自微軟、復旦大學、浙江大學以及上海科技大學的研究者提出了一個新的概念:CoR(Chain-of-Representation,表徵鏈),它將表徵範疇的範圍泛化到更廣泛的領域。
論文標題:Chain-of-Model Learning for Language Model
論文地址:https://arxiv.org/pdf/2505.11820
具體而言,本文觀察到任何表徵總是可被視為隱藏維度上多個子表徵的組合。因此,本文將這種組合定義為表徵鏈,每個子表徵對應一條鏈。基於此定義,透過使用不同數量的前導鏈(preceding chains),其對應的特徵可用於編碼不同的知識(稱之為 scale),如圖 1 所示。
因此,如何在 CoR 特徵之間建立連接以確保跨尺度的特徵轉換是非常關鍵的。
為了實現這一目標,本文接著提出了一種名為模型鏈(Chain-of-Model,CoM)的新型學習範式,用於建模 CoR 特徵。
其核心思想是在不同尺度之間引入因果依賴關係,確保每個尺度只能使用其前面尺度的資訊。為此,本文提出了鏈式層(Chain-of-Layer,CoL),以基於 CoR 特徵重新建構當前的網路層。
在 CoM 框架的基礎上,本文將 CoL 的思想應用於 Transformer 的每一層,重新建構了語言模型架構,並將其命名為語言模型鏈(CoLM)。
此外,基於 CoL 準則,本文在注意力模組中進一步引入了鍵值共享機制,該機制要求所有鍵和值都在第一個鏈中進行計算,並將其命名為 CoLM-Air。基於此機制,CoLM-Air 提供了更高的可擴展性和靈活性。
多個基準測試實驗結果表明,CoLM 系列模型能夠達到相當的效能,同時展現出更好的可擴展性和靈活性。
方法介紹
首先是表徵鏈的定義:
據定義 1,每個鏈對應於 CoR 中的每個子表徵,透過啟用前幾個鏈,CoR 可用於編碼尺度。因此,CoR 允許在單一表示中編碼 n 個不同的尺度。如果 n=1,CoR 與原始表示相同。圖 1 展示了 CoR 的概念。
基於上述定義,現在面臨的一個挑戰是如何設計層來建立 CoR 輸入和 CoR 輸出之間的連接,從而實現多尺度特徵轉換,同時又能保持輸出特徵符合定義 1 中 CoR 的標準。
這就需要保證每個尺度只能利用其所有前一個尺度的資訊,並同時引入 Chain-of-Layer 將因果關係融入 CoR 的隱藏狀態中,如下所示:
其中,CoL 具有三個基本屬性——普遍性、因果性與組合性。
最重要的是,CoL 支持組合性,這意味著堆疊多個 CoL 層也能保留 CoL 的特性。這一特性能夠將 CoL 的範圍從層級推廣到模型級。
接著本文又給出了第三個定義
根據定義 3,如果一個模型滿足了 CoM 的標準,那麼它也繼承了 CoL 的所有屬性,例如通用性與因果關係。換句話說,任何模型都可以被視為一種 CoM(即 n = 1)。CoM 可以將不同規模的多個子模型整合到一個模型中,並能在現有模型的基礎上進行擴展。這種能力直接賦予了基礎模型更好的可擴展性與靈活性。
接著,文章詳細描述了如何將 CoM 應用於語言模型,包括 Linear、Transformer 中的每個模組(例如,嵌入、自注意力、前饋、歸一化)以及目標函數,並將其稱為 CoLM(Chain-of-Language-Model)。此外,本文進一步引入了一種基於 CoLM 框架的鍵值共享機制,並將其稱為 CoLM-Air,它提供了更好的靈活性。
圖 2 描述了線性層和 Chain-of-Linear 層的比較。
圖 3 說明了注意力和注意力鏈的區別:
對這部分內容感興趣的讀者,可以參考原論文了解更多內容。
實驗結果
表 1 結果表明,CoLM 取得了與基準相當的結果,同時提供了更快的預填充速度和更高的靈活性。
考量到 CoM 的通用性與因果性,任何模型在鏈數為 1 時均可視為 CoM 的特例,並可擴展至多鏈結構。因此,本文提出鏈式擴展(Chain Expansion)方法:以訓練完備的模型作為初始鏈,透過新增鏈進行擴展。
為驗證這一觀點,本文選擇了兩個 LLaMA 變體(即 TinyLLaMA-v1.1 和 LLaMA-3.21B)作為擴展的初始鏈。
表 2 結果表明,與 TinyLLaMA-v1.1 和 LLaMA-3.2-1B 相比,本文分別實現了 0.92 和 0.14 的提升。由於 LLaMa-3.2-1B 是更強的基準,因此需要更多計算才能獲得顯著提升,但本文方法在有限的計算量下仍然可以對其進行改進。總體而言,這些結果也表明,即使在資源受限的情況下,本文方法在改進基準方面仍然有效。
彈性推論旨在提供動態推論能力以滿足不同部署場景的需求。表 3 結果進一步凸顯了 CoLM 在實現彈性推論方面的潛力。
從圖 5 可以看出,在參數量相近的情況下,CoLM-Air 相比 LLaMa 實現了更快的預填充速度。隨著序列長度的增加,CoLM-Air 在預填充階段能獲得更顯著的速度提升。這充分證明了 CoLM-Air 能有效加速預填充過程。
得益於 CoM 架構的因果特性,CoLM 由多個鏈式模組組成,其中每個鏈都能繼承前序鏈的能力。基於這一特性,本文提出鏈式調優(Chain Tuning)方法——在凍結前幾個鏈的同時僅對後續鏈進行微調。該方法透過保留初始鏈參數,既能降低約 42% 的調優成本,又可有效緩解災難性遺忘問題。
此外,當採用 CoLM-Air 配置並凍結首鏈時,經微調模型產生的鍵值對可無縫遷移至原始模型,無需額外計算。實驗表明,鏈式調優僅需微調約 42% 的模型參數即可提升效能,且能與 LoRA 等參數高效微調方法相容。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com