「零和學習」理論橫空出世，揭示大型語言模型縮放定律的真相！

零和學習理論示意圖

一句話概括：作者發現所有語言模型訓練到一半都會進入「零和學習」的瓶頸期，學習進度變慢，而所謂的「縮放」（scaling）魔力，不過是給模型打了一劑克服這種「學習倦怠期」的興奮劑。（原論文題目見文末，Published on arxiv on 14 Jul 2025, by Mila – Quebec AI Institute, Université de Montréal, Capital One）

第一階段：識別核心概念

論文的動機分析

讀者們可能都聽說過「縮放定律」，它告訴我們，只要不斷地把語言模型做大、用更多數據去訓練，模型的性能就會像遵循物理定律一樣，可預測地持續變好。這很神奇，但也像一個黑箱。我們知道「是什麼」（What）——模型變大性能變好，但我們並不清楚「為什麼」（Why）和「怎麼樣」（How）——究竟是模型變大的哪個環節或機制，導致了性能的提升？

這篇論文的作者們正是對這個「為什麼」和「怎麼樣」充滿了好奇。他們認為，如果我們能理解模型規模擴大改善性能的底層機制，或許就不必總是依賴於「大力出奇蹟」這種耗費巨大資源的方式了。我們也許可以直接針對這個關鍵機制進行優化，從而在不增加模型規模的情況下也能提升性能。這就是這篇論文最根本的出發點：從訓練動態中尋找縮放定律的機械論解釋，並為未來「四兩撥千斤」式的模型優化方法尋找理論基礎。

論文主要貢獻點分析

這篇論文提出了一套環環相扣的全新理論來解釋縮放定律。

列出論文聲稱的主要創新點

1. 發現並定義「損失減速」（Loss Deceleration）現象：作者發現，語言模型在訓練初期，損失（Loss）會飛速下降，但到某個點會突然「踩煞車」，下降速度明顯放緩。在對數-對數坐標系下，這個過程表現為一條由兩段直線組成的「肘狀」曲線。

2. 提出「零和學習」（Zero-Sum Learning, ZSL）作為「損失減速」的內在機制：作者創造性地提出了ZSL的概念。這是一種退化的訓練狀態，在此狀態下，模型對一部分樣本的優化，會以犧牲另一部分樣本的性能為代價。就像一個蹺蹺板，一頭下去，另一頭必然翹起，總體的「高度」變化（即損失下降）因此變得極其困難。

3. 將模型規模化的好處與緩解ZSL聯繫起來：論文的核心論點是，擴大模型規模之所以有效，其關鍵作用在於緩解了「零和學習」現象。具體表現為兩點：1）讓「損失減速」發生在更低的損失值上；2）讓減速後的損失下降斜率（速度）更大。

找出支撐這些創新的關鍵技術或方法

1. BNSL（Broken Neural Scaling Law）擬合：為了精確定量地描述「損失減速」現象，作者使用了一種名為「斷點冪律」的數學模型來擬合損失曲線，從而準確地測量出減速發生的時刻、損失值以及減速後的下降速率。

2. 「破壞性干擾」（Destructive Interference）度量：為了衡量ZSL的程度，作者定義了一個關鍵指標 D(Δl) 。這個指標用於計算在一次更新中，各個樣本的損失變化在多大程度上相互抵消了。如果這個值接近1，就意味著幾乎所有的優化效果都被內部衝突消耗掉了，即進入了嚴重的ZSL狀態。

論文有哪些顯著性的結果

1. 找到了縮放定律的一個機械論解釋：這可能是最重要的意義。它不再將縮放定律視為一個經驗公式，而是將其與訓練過程中具體的、可衡量的動態現象（ZSL）聯繫起來，為我們打開了理解大型模型訓練的微觀視角。

2. 揭示了訓練後期與泛化能力的深刻聯繫：實驗發現，在克服ZSL（即減速後）階段取得的損失下降，比在減速前取得的同等損失下降，能帶來更強的模型泛化能力。這暗示了模型在與ZSL「搏鬥」的過程中，可能學到了更本質、更通用的知識。

理解難點識別

分析哪些概念/方法是理解論文的關鍵

1. 零和學習（Zero-Sum Learning, ZSL） 是全文最核心、最新穎的概念。理解ZSL是什麼，以及它如何導致損失減速，是讀懂這篇論文的鑰匙。

2. 破壞性干擾（Destructive Interference） 是ZSL的量化體現，理解它的定義和計算方式至關重要。

找出這些概念中最具挑戰性的部分

最具挑戰性的部分在於將宏觀的「損失減速」現象與微觀的「樣本間梯度/損失衝突」（即ZSL）聯繫起來。為什麼當模型學到一定程度後，樣本之間就會開始「內卷」和「衝突」？這種衝突又是如何被模型規模的擴大所緩解的？

確定需要重點解釋的核心概念

我們需要重點解釋：「零和學習（ZSL）」，以及它是如何通過「破壞性干擾」這個指標被衡量，並最終導致「損失減速」這一宏觀現象的。

概念依賴關係

這些核心概念之間存在著清晰的因果鏈條和依賴關係：

縮放定律（宏觀現象）→ 損失減速（現象的數學刻畫）→ 零和學習 ZSL（現象的內在機制）→ 破壞性干擾（機制的量化指標）

這個鏈條揭示了一個從宏觀到微觀的探索路徑。我們的最佳切入點，就是從這個鏈條的核心——零和學習（ZSL）——開始。搞懂了ZSL，其他的概念便能迎刃而解。

第二階段：深入解釋核心概念——「零和學習」的龍舟之喻

設計生活化比喻：奮力前行的龍舟隊

想像一下，我們有一支龍舟隊正在參加一場漫長的比賽。

1. 龍舟：代表正在訓練的語言模型。

2. 龍舟前進的速度：代表模型整體損失（Loss）下降的速度。速度越快，說明模型學得越快，性能提升越顯著。

3. 船上的槳手們：每一位槳手都代表一個訓練樣本（比如一個token或一句話）。

4. 每位槳手的划槳動作：代表模型在處理這個樣本時計算出的梯度（gradient），這個動作的「效果」就是這個樣本的損失變化量（Δl）。

5. 比賽的目標：讓龍舟盡快到達終點，即讓模型的總損失降到最低。

建立比喻與實際技術的對應關係

比喻與技術概念的對應關係：

1. 龍舟前進的速度減慢 对应 損失減速 (Loss Deceleration)：宏觀上，我們看到龍舟（模型）前進（學習）的速度突然變慢了。

2. 槳手們動作不協調，甚至對著幹 对应 零和學習 (ZSL)：槳手們（樣本）之間產生了內部衝突，一些人的努力被另一些人抵消，導致龍舟（模型）難以有效前進。

3. 槳手們「內耗」的程度 对应 破壞性干擾 D(Δl)：這個指標衡量了槳手們的合力與他們各自出力總和之間的差距。內耗越大，這個值越高。

4. 更換一條更寬、更長的龍舟 对应 擴大模型規模 (Scaling up)：更大的模型提供了更多的「操作空間」，讓槳手們（樣本梯度）不容易互相干擾。

5. 龍舟的實際前進距離 对应 整體損失變化 ΔL：指實際達成的總損失變化。

6. 所有槳手不考慮方向，各自划槳能產生的總推力 对应 理想的損失變化：假設所有槳手都朝同一個方向完美發力，他們能產生的最大前進動力。

深入技術細節

作者如何精確地衡量槳手們的「內耗」程度呢？答案是破壞性干擾 D(Δl) 這個指標。

原始數學形式這篇論文的核心衡量公式之一出現在公式（3）中：

D(Δl) = 1 - (|ΣΔl|) / (Σ|Δl|)

符號替換的自然語言版本

槳手團隊的內耗程度 = 1 - （龍舟實際前進的距離） / （所有槳手各自划槳能產生的總距離之和）

• Δl（某個槳手產生的位移）：代表第 i 個樣本（槳手）導致的損失變化。這個值有正有負，負數代表損失減小（對龍舟施加了向前的力），正數代表損失增大（對龍舟施加了向後的力）。

• Σ|Δl|（所有槳手各自划槳能產生的總距離之和）：這是把每個槳手划槳產生的位移取絕對值後再相加。它代表了所有槳手付出的總努力，也就是在理想情況下（所有人都朝一個方向划）龍舟能前進的最大距離，即理想的損失變化。

• |ΣΔl|（龍舟實際前進的距離）：這是先把所有槳手的位移（有正有負）加在一起，得到一個淨位移，再取絕對值。它代表了所有力量相互抵消後，龍舟實際前進的距離，即整體損失變化。

將技術細節與比喻相互映射

技術步驟在比喻中的體現

1. 訓練初期（損失快速下降）：比賽剛開始，所有槳手都朝氣蓬勃，雖然動作不完美，但大方向都朝前。此時，Σ|Δl|（總努力）和 |ΣΔl|（實際效果）差別不大，所以 D(Δl)（內耗）很低，龍舟飛速前進。

2. 進入損失減速期（ZSL出現）：隨著比賽進行，槳手們開始出現分歧。左邊的槳手想讓船向右拐去「學習」某個知識點，而右邊的槳手想讓船向左拐去「學習」另一個知識點。為了保持船身正直，他們開始互相「較勁」。此時的關鍵現象——每個槳手依然在奮力划水（Σ|Δl| 很大），但他們的力大部分都用在左右抵消上了，導致龍舟實際前進的距離 |ΣΔl| 變得非常小；根據公式，當分子 |ΣΔl| 趨近於0時，D(Δl) 的值就會趨近於1，這在數學上精確地描述了「嚴重內耗」的狀態，也就是零和學習。

比喻如何幫助理解技術細節

• 這個比喻直觀地解釋了為什麼 D(Δl) 這個指標能衡量ZSL。它告訴我們，模型的學習瓶頸不一定是「總動力」不足（Σ|Δl| 依然可以很大），而可能是「內耗」過大。

• 它也解釋了為什麼擴大模型規模（換一條更寬的龍舟）能緩解ZSL。更寬的龍舟意味著更高的維度和更多的參數。左邊的槳手和右邊的槳手之間有了更大的空間，他們可以在不直接衝突的「維度」上發力，既能保持龍舟正直，又能共同貢獻向前的動力。這就解釋了為什麼大型模型能把減速點推後，並在減速後保持更快的速度。

比喻的局限性

• 龍舟的比喻簡化了「梯度」的複雜性。真實的梯度是高維向量，而槳手的力只是一個二維方向。但這個核心思想——力的相互抵消導致合力減小——是完全一致的。

總結

• 核心聯繫重申：零和學習（ZSL）就是龍舟隊的「內耗」。當槳手們（訓練樣本）開始相互對抗，導致團隊的努力（梯度更新）大部分被內部抵消時，龍舟（模型）的前進速度（損失下降速度）就會急劇減慢，這就是「損失減速」。

• 關鍵數學原理總結：D(Δl) 公式就是衡量這艘龍舟「內耗效率」的工具。它通過比較「所有人的力氣加起來有多大」和「最終船前進了多遠」，來精確計算出有多少力氣被浪費在了內鬥上。

• 論文的核心洞見：縮放定律的魔力，很大程度上在於它為龍舟隊提供了一艘更大、更先進的船，從而有效降低了團隊的內耗，讓槳手們的努力能更高效地轉化為前進的動力。

第三階段：詳細說明流程步驟

從輸入到輸出的完整分析流程

輸入：標準的語言模型預訓練設定。這包括：

• 一系列不同規模的Transformer模型：例如，從14M參數到472M參數，以及更大的OLMo-1B和7B模型。

• 大規模的訓練數據集：如OLMo-7B-0724數據集。

• 標準的優化器和訓練超參數：如AdamW優化器，特定的學習率策略等。

處理流程：整個流程可以分為三個緊密相連的步驟：觀察與量化、假設與建模、驗證與歸因。

第一步：觀察與量化「損失減速」現象

1. 執行訓練並記錄數據：作者首先對所有不同規模的模型進行訓練。在訓練過程中，他們會密集地記錄每一步的訓練損失（Loss），並保存模型的檢查點（checkpoint）。

2. 繪製對數-對數損失曲線：將記錄的訓練步數和對應的損失值都在對數坐標下進行視覺化。這時，一個清晰的模式出現了：所有模型的損失曲線都不是平滑的直線，而是在訓練早期出現一個明顯的「拐點」或「肘部」，曲線在此之後變得平緩。這就是「損失減速」的宏觀現象。

3. 使用BNSL模型進行數學擬合：為了不只是「看」到這個現象，而是要精確地「測量」它，作者使用了斷點冪律模型（BNSL），即論文中的公式（1），來擬合這些損失曲線。

4. 提取關鍵減速參數：通過BNSL擬合，對於每個模型，都能精確地得到三個描述減速過程的關鍵參數，如論文公式（2）和表1所示：

此步驟的輸出：一系列量化指標，清晰地表明模型規模越大，L_b越低，β_1越高。這為「縮放能夠緩解減速」提供了第一層定量證據。

• L_b：減速發生時的損失值。

• S_b：減速發生的訓練步數。

• β_1：減速後，損失曲線在對數-對數坐標下的斜率（代表學習速率）。

第二步：提出「零和學習」假說並建立度量模型

1. 提出ZSL假說：面對「損失減速」這個現象，作者提出了一個大膽的猜想：減速不是因為模型「學不動了」，而是因為模型內部發生了「衝突」。具體來說，模型在更新參數時，對某些樣本的改進是以損害另一些樣本為代價的。這種衝突愈演愈烈，最終導致整體學習停滯，即「零和學習」（ZSL）。

2. 建立「破壞性干擾」度量：為了驗證這個假說，需要一個能衡量「衝突」或「內耗」程度的工具。作者為此設計了破壞性干擾指標 D(Δl)（公式3）。

此步驟的輸出：一個可計算的、用於衡量ZSL程度的指標 D(Δl)。

• 這個指標的計算依賴於單樣本損失變化量 Δl。要得到這個值，需要在兩次模型檢查點（例如，第t步和第t+Δt步）之間，對同一批驗證數據計算每個樣本的損失，然後求差值。

• 根據公式 D(Δl) = 1 - (|ΣΔl|) / (Σ|Δl|)，計算出 D(Δl) 的值。這個值越接近1，說明樣本間的損失變化抵消得越厲害，ZSL現象越嚴重。

第三步：連接ZSL與損失減速，完成歸因

1. 驗證時間上的同步性：作者計算了在整個訓練過程中 D(Δl) 的變化曲線，並將其與損失曲線對齊（如圖3所示）。他們發現了一個驚人的事實：D(Δl) 的值正是在「損失減速」發生的區域急劇上升並達到峰值。這種時間上的高度同步性，是證明ZSL與損失減速相關的強有力證據。

2. 解耦分析，確定主導因素：同步性還不夠，還需要證明ZSL是減速的原因，而不僅僅是相關現象。作者為此做了一個非常巧妙的解耦分析（如圖5所示）。

• 他們指出，整體的損失下降 ΔL 可以被分解為兩個因素的乘積：|ΣΔl|（所有樣本損失變化的平均絕對值，代表「學習力度」）和 D(Δl)（代表「學習效率」或「建設性干擾」），即論文中的公式（6）：ΔL = |ΣΔl| * (1 - D(Δl))。

• 損失下降減速，要麼是因為「學習力度」 |ΣΔl| 減小了，要麼是因為「學習效率」 (1 - D(Δl)) 下降了（即 D(Δl) 增大了）。

• 通過繪製模型在訓練過程中 (1 - D(Δl)) 和 |ΣΔl| 的變化軌跡，作者發現，在減速期間，|ΣΔl| 的下降幅度很小，而 (1 - D(Δl)) 的上升幅度是巨大的（例如，從0.5上升到0.95）。

• 這個分析雄辯地證明了：導致損失減速的主要原因，是破壞性干擾 D(Δl) 的急劇增加，即ZSL的出現，而不是模型本身學習力度的減弱。

3. 探究ZSL的根源：最後，作者還向上追溯了一步，探究ZSL的根源是否在於梯度（gradient）層面的衝突。他們同樣定義了梯度的破壞性干擾指標 D(Δg)（公式4），並發現梯度的衝突同樣在減速期達到峰值（圖4），從而確認了ZSL的根本原因在於各樣本的梯度方向變得系統性地相互對立。

最終輸出：一個完整的、從宏觀現象到微觀機制的解釋鏈條。

• 結論：語言模型的縮放定律之所以有效，是因為更大的模型擁有更高的維度和參數量，這為不同樣本的梯度提供了解耦和尋找「和平共處」路徑的可能，從而有效緩解了「零和學習」這一根本性的訓練瓶頸，使得模型能夠學得更深、更廣。

第四階段：實驗設計與驗證分析

1. 主實驗設計解讀：核心論點的驗證

• 核心主張：語言模型性能隨規模提升（縮放定律）的根本原因在於，更大規模的模型能夠更好地緩解「損失減速」現象，而該現象的內在機制是「零和學習」（ZSL）。

• 實驗設計：這個主實驗本質上是一個多尺度觀測研究。

• 數據集：實驗使用了OLMo-7B-0724訓練數據集，這是一個大規模、高品質的公開數據集，符合當前大型模型預訓練的標準實踐，保證了實驗結果的現實意義和可復現性。

• 評價指標：核心指標不是傳統的下游任務性能，而是訓練動態本身的度量。宏觀指標——訓練損失（Loss）；現象量化指標——通過BNSL擬合得到的 L_b（減速損失）、S_b（減速步數）、β_1（減速後斜率）；機制量化指標——D(Δl)（損失的破壞性干擾）和 D(Δg)（梯度的破壞性干擾）。這些指標是專門為驗證核心主張而設計的，能夠直接、精確地刻畫所研究的現象和機制。

• 基準方法：這裡的「基準」不是其他算法，而是不同規模的模型自身。通過比較14M, 37M, ..., 472M, OLMo-1B, OLMo-7B等一系列模型的訓練動態，作者建立了一個「隨規模變化」的參照系。這種「自我對比」的方式是研究縮放定律的標準範式。

• 結果如何支撐核心貢獻

• 圖2 和表1 直接展示了「損失減速」現象，並用數據證明了模型越大，L_b越低，β_1越高。這直接支撐了「規模化緩解損失減速」的論點。

• 圖3 和圖4 顯示了 D(Δl) 和 D(Δg) 的變化曲線與損失減速在時間上的完美同步，建立了ZSL與減速現象的強關聯。

• 圖5 是整個論證鏈的「王牌證據」。它通過解耦分析，清晰地表明損失下降放緩主要是由 D(Δl) 的急劇上升（即ZSL的惡化）導致的，而不是學習力度 |ΣΔl| 的減弱。這完成了從「相關」到「因果」的關鍵一步論證。

2. 消融實驗分析：內部組件與替代假說的檢驗

• 驗證「一階動態」假設的必要性

• 被「檢驗」的假設：從梯度衝突 D(Δg) 到損失衝突 D(Δl) 的推導，依賴於一個一階泰勒展開的近似，即假設參數更新步長很小，損失變化約等於梯度與更新量的點積。

• 實驗設計：作者在訓練過程中，直接比較了真實的損失變化 ΔL 和基於一階近似計算出的損失變化 ΔL。

• 實驗結果（圖9）：結果顯示，在減速發生後，這兩者的皮爾遜相關係數接近1.0。這強有力地證明了在發生ZSL的關鍵階段，一階動態假設是成立的，從而保證了整個理論分析鏈條的有效性。

• 排除「漸進銳化」假說

• 被「排除」的替代假說：一個很自然的猜想是，損失減速可能是因為模型進入了損失曲面的一個「狹窄山谷」（即曲面變得非常尖銳，sharpness很高），導致優化器難以穩定下降。

• 實驗設計：作者直接測量了訓練過程中損失曲面在更新方向上的銳度（sharpness）。

• 實驗結果（圖10）：結果出人意料，與假說完全相反。損失曲面的銳度在減速前達到峰值，而在減速發生後反而顯著下降，變得更加平坦。這個實驗乾淨利落地排除了一個極具迷惑性的替代解釋，從而讓ZSL作為主要原因的論點更加突出和可信。

3. 深度/創新性實驗剖析：洞察方法的內在特性

• 視覺化分析：參數級ZSL直方圖（圖12）

• 實驗目的：解釋為什麼更大的模型能緩解ZSL。僅僅說「維度更高」還不夠具體，這個實驗試圖從參數的視角揭示其工作機理。

• 實驗設計：作者不再計算所有參數的平均梯度干擾，而是計算每個參數或每組參數的 D(Δg)，然後繪製出其分佈的直方圖。

• 實驗結論：一個驚人的發現！雖然大型模型的平均梯度干擾度甚至比小型模型還高（圖4），但它們的參數干擾度分佈呈現出一個更長的「左尾」（圖12）。這意味著，大型模型擁有更多具有低破壞性干擾的參數。這提供了一個精妙的解釋：規模擴大不是讓所有參數都變得「和諧」，而是提供了更多的「和平路徑」，讓梯度可以在這些低干擾的維度上進行有效的更新，從而繞開了ZSL的瓶頸。

• 探究性實驗：ZSL與模型泛化能力的關係（附錄B.3, 圖17）

• 實驗目的：探究克服ZSL的過程是否與學習通用知識（即泛化）有關。

• 實驗設計：作者比較了不同模型在不同訓練階段（減速前 vs. 減速後）的檢查點在下游任務（如Hellaswag, PIQA）上的性能。最關鍵的比較是，拿一個較小模型（OLMo-1B）在減速後的檢查點，與一個大得多模型（OLMo-7B）在減速前、但與前者具有相同訓練損失值的檢查點進行比較。

• 實驗結論：結果非常發人深省。在許多任務上，小型模型在克服ZSL後（減速後）的性能，竟然超過了損失值相同但尚未經歷嚴重ZSL的大型模型。這強烈暗示，模型與ZSL「搏鬥」並最終克服它的過程，不僅僅是在擬合訓練數據，更是在學習某種對下游任務至關重要的、更具泛化性的能力。這為ZSL賦予了超越訓練動態本身的更深層含義。

• 案例研究：不同優化器的影響（附錄C.2）

• 實驗目的：測試ZSL現象是否具有普適性，以及不同的優化策略是否能影響ZSL。

• 實驗設計：將基準的AdamW優化器替換為更新、更複雜的AdEMAMix和Muon優化器。

• 實驗結論：不同的優化器確實以不同的方式影響了損失減速和ZSL。例如，Muon傾向於讓減速更早發生，而AdEMAMix則改善了減速後的學習速率。這表明，ZSL不僅是模型和數據的固有屬性，也受到優化策略的調控。這個實驗為未來「獨立於模型規模，直接針對ZSL進行優化」的研究方向打開了一扇窗。

本文題目：Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning

「零和學習」理論橫空出世，揭示大型語言模型縮放定律的真相！

分享短網址