分層推論模型 Hierarchical Reasoning Model

摘要

推論是設計和執行複雜目標導向行動序列的過程，它仍然是人工智慧中的一個關鍵挑戰。當前的大型語言模型（LLMs）主要採用思維鏈（CoT）技術，這些技術存在任務分解脆弱、資料需求量大以及延遲高的問題。受人腦中分層和多時間尺度處理的啟發，我們提出了分層推論模型（HRM），這是一種新穎的遞迴架構，它能夠在保持訓練穩定性和效率的同時實現顯著的計算深度。HRM通過兩個相互依賴的遞迴模組在單次前向傳遞中執行序列推論任務，而無需對中間過程進行明確監督：一個負責緩慢、抽象規劃的高層模組，以及一個處理快速、詳細計算的低層模組。HRM僅包含2700萬個參數，在僅使用1000個訓練樣本的情況下，在複雜推論任務上實現了卓越的效能。該模型無需預訓練或CoT資料，卻在包括複雜數獨謎題和大型迷宮中的最佳路徑尋找等具有挑戰性的任務上實現了近乎完美的效能。此外，HRM在抽象與推論語料庫（ARC）上超越了具有顯著更長上下文視窗的更大模型，ARC是衡量人工通用智慧能力的一個關鍵基準。這些結果突顯了HRM作為邁向通用計算和通用推論系統變革性進步的潛力。

1 引言

深度學習，顧名思義，起源於通過堆疊更多層以獲得更強的表示能力和更優效能的理念。然而，儘管大語言模型取得了顯著成功，其核心架構卻出人意料地淺層化。這對其最受期待的能力——推論——施加了根本性限制。標準Transformer的固定深度使其處於AC0或TC0等計算複雜性類別中，因而無法解決需要多項式時間的問題。大語言模型不具備圖靈完備性，因此至少在純粹端到端的方式下，無法執行實現深思熟慮的規劃或符號操作任務所必需的複雜演算法推論。例如，我們在數獨任務上的結果表明，增加Transformer模型的深度可以提升效能，但即便使用非常深的模型，效能仍遠未達到最佳（見圖2），這支持了當前大語言模型擴展範式存在局限性的推測。

大語言模型領域的文獻在推論方面主要依賴思維鏈（Chain-of-Thought, CoT）提示技術。CoT通過將複雜任務分解為更簡單的中間步驟，利用淺層模型逐個生成文字，將推論過程外化為詞元（token）級別的語言表達。然而，CoT用於推論只是一種權宜之計，並非令人滿意的解決方案。它依賴於脆弱的人工定義的任務分解方式，其中任何一個步驟的錯誤或順序錯亂都可能導致整個推論過程失敗。這種對明確語言步驟的依賴，使推論被束縛在詞元層面的模式上。因此，CoT推論通常需要大量訓練資料，並在複雜推論任務中生成大量詞元，導致響應速度緩慢。我們需要一種更有效率的方法來最小化這些資料需求。

為此，我們探索「潛在推論」（latent reasoning），即模型在其內部隱藏狀態空間中進行計算。這與一種認知觀點一致：語言是人類交流的工具，而非思維本身的載體；大腦在潛在空間中以驚人的效率維持著長而連貫的推論鏈條，而無需不斷將其翻譯回語言。然而，潛在推論的能力仍從根本上受限於模型的有效計算深度。簡單地堆疊層由於梯度消失問題而極其困難，這嚴重影響了訓練的穩定性與有效性。循環架構作為處理序列任務的自然替代方案，常出現過早收斂的問題，導致後續計算步驟失效，且依賴於在生物學上不現實、計算成本高且記憶體消耗大的「時間反向傳播」（Backpropagation Through Time, BPTT）進行訓練。

人類大腦為實現當前人工模型所缺乏的有效計算深度提供了極具啟發性的藍圖。大腦在不同時間尺度運行的皮質區域之間以分層方式組織計算，從而實現深度的多階段推論。循環回饋迴路不斷最佳化內部表示，使得緩慢的高層區域能夠指導快速的低層迴路執行任務，在保持全域一致性的同時實現分層處理。值得注意的是，大腦在實現這種深度的同時，避免了傳統循環網路因時間反向傳播而產生的高昂信用分配成本。

受這種分層且多時間尺度的生物結構啟發，我們提出了分層推論模型（Hierarchical Reasoning Model, HRM）。HRM旨在顯著提升有效計算深度。該模型包含兩個耦合的循環模組：一個高層（H）模組用於抽象、深思熟慮的推論，一個低層（L）模組用於快速、細緻的計算。這種結構通過我們稱之為「分層收斂」（hierarchical convergence）的過程，避免了標準循環模型的快速收斂問題。低層模組快速更新，執行多個計算步驟並達到局部平衡後，高層模組才向前推進一步，此時低層模組被重置，進入新的計算階段。

此外，我們提出了一種單步梯度近似方法來訓練HRM，該方法提高了訓練效率，並消除了對BPTT的需求。該設計在整個反向傳播過程中保持恆定的記憶體佔用（O(1)，而BPTT為O(T)，T為時間步數），使其具有良好的可擴展性，並更符合生物學機制。

憑藉增強的有效深度，HRM在需要廣泛搜尋和回溯的任務中表現出色。僅使用1000個輸入-輸出樣本，無需預訓練或思維鏈監督，HRM便學會了求解對最先進的大語言模型而言不可行的問題。例如，在複雜的數獨謎題（Sudoku-Extreme Full）和30×30迷宮中的最佳路徑搜尋任務中，HRM實現了近乎完美的準確率，而最先進的CoT方法則完全失敗（準確率為0%）。在「抽象與推論語料庫」（Abstraction and Reasoning Corpus, ARC）AGI挑戰賽——一個歸納推論的基準測試中，HRM僅使用官方資料集（約1000個樣本）從零開始訓練，參數量僅為2700萬，上下文為30×30網格（900個詞元），取得了40.3%的成績，顯著超越了領先的基於CoT的模型，如o3-mini-high（34.5%）和Claude 3.7（8K上下文，21.2%），儘管後者參數規模和上下文長度大得多（見圖1）。這一成果為開發具備通用計算能力的下一代人工智慧推論系統指明了一個極具前景的方向。

2 分層推論模型

我們提出分層推論模型（HRM），其設計靈感來源於大腦中觀察到的神經計算的三個基本原理：

分層處理：大腦在皮質區域的層級結構中處理資訊。高層區域在更長的時間尺度上整合資訊，並形成抽象表示，而低層區域則負責更即時、更細緻的感官和運動處理。

時間分離：大腦中的這些層級以不同的內在時間尺度運行，體現在神經節律中（例如，慢速的θ波為4–8 Hz，快速的γ波為30–100 Hz）。這種時間上的分離使得高層能夠穩定地指導低層的快速計算。

循環連接：大腦具有廣泛的循環連接。這些回饋迴路支持對內部表示進行迭代最佳化，從而獲得更準確、更具上下文敏感性的結果，代價是需要額外的處理時間。此外，大腦在很大程度上避免了與時間反向傳播（BPTT）相關聯的棘手的深層信用分配問題。

HRM 明確地設計用於通過我們稱之為「分層收斂」（hierarchical convergence）的過程來對抗這種過早收斂。在每個週期中，低層模組（L模組，一個循環神經網路RNN）會穩定地收斂到一個局部平衡狀態。然而，該平衡狀態依賴於該週期中高層模組提供的高層狀態 zH。在完成 T 個時間步後，高層模組（H模組）整合此次子計算的結果（即低層模組的最終狀態 zL），並執行自身狀態更新。這一 zH 的更新為低層模組建立了一個全新的上下文環境，實質上「重啟」了其計算路徑，從而開啟向另一個局部平衡狀態的新一輪收斂階段。

這一過程使得 HRM 能夠執行一系列不同但穩定的巢狀式計算：高層模組指導整體問題求解策略，而低層模組則執行每一步所需的密集搜尋或精細最佳化。儘管一個標準RNN可能在 T 次迭代內接近收斂，但分層收斂機制的有效計算深度達到了 N×T 步。正如圖3的實驗結果所示，該機制使HRM能夠在多個時間步中保持較高的計算活躍度（前向殘差），而標準RNN的活躍度則迅速衰減；同時仍能實現穩定的收斂。這使得HRM在任意計算深度下均表現出更優的效能，如圖2所示。

梯度近似：循環模型通常使用時間反向傳播（BPTT）來計算梯度。然而，BPTT需要儲存前向傳播過程中的所有隱藏狀態，並在反向傳播時將它們與梯度結合，這需要 O(T) 的記憶體（T 為時間步數）。這種巨大的記憶體開銷迫使使用更小的批次大小，導致GPU利用率低下，尤其對於大規模網路而言更為嚴重。此外，由於在時間上保留完整歷史軌跡在生物學上是不可行的，因此大腦很可能並未實現BPTT。

幸運的是，如果一個循環神經網路收斂到一個固定點，我們可以通過在該平衡點進行單步反向傳播，從而避免展開其狀態序列。此外，這種機制有可能僅通過局部學習規則在大腦中實現。基於這一發現，我們提出一種HRM梯度的單步近似方法——僅使用每個模組最後狀態的梯度，並將其他狀態視為常數。因此，梯度的傳播路徑為：

上述方法僅需 O(1) 的記憶體，無需進行時間上的展開，且可輕鬆通過 PyTorch 等自動微分框架實現，如圖4所示。由於每個模組只需通過其最近的局部突觸活動進行誤差反向傳播，該方法與大腦皮質信用分配依賴於短距離、時間上局部的機制（而非全域活動模式回放）的觀點高度一致。

我們現在可以定義學習過程的損失函數。每次監督段的總體損失結合了Q-head損失和序列到序列損失：

最小化上述損失函數能夠實現準確的預測以及近乎最佳的停止決策。「停止」（halt）動作的選擇將結束監督循環。在實際操作中，序列是以批次處理方式處理的，可以通過用資料載入器中的新樣本替換批次中任何已停止的樣本來輕鬆處理。

圖5展示了兩種HRM變體之間的效能對比：一種採用了ACT機制，另一種則使用與ACT的Mmax參數相當的固定計算步數。結果表明，ACT能夠根據任務複雜度自適應地調整其計算資源，在對效能影響極小的情況下實現了顯著的計算節省。

推論時可擴展性一個有效的類神經網路模型應當能夠在推論階段利用額外的計算資源來提升效能。如圖5-(c)所示，HRM只需簡單地增加計算限制參數Mmax，即可無縫實現推論時的擴展，而無需進一步訓練或修改網路結構。

額外的計算資源對於需要深入推論的任務尤其有效。在數獨問題上——這類問題通常需要長期規劃——HRM表現出強烈的推論和擴展能力。另一方面，我們發現，在ARC-AGI挑戰任務中，額外的計算資源帶來的效能提升非常有限，因為這些問題的解決方案通常只需要少數幾次變換即可完成。

ACT中Q學習的穩定性

支撐我們ACT機制的深度Q學習已知容易出現不穩定情況，通常需要採用諸如重放緩衝區和目標網路等穩定化技術，而這些在我們的設計中是缺失的。然而，我們的方法通過模型本身及其訓練過程的內在屬性實現了穩定性。Gallici等人的最新理論工作表明，如果網路參數有界、在訓練中引入權重衰減以及實現後歸一化層，Q學習可以實現收斂。我們的模型通過其採用RMSNorm（一種層歸一化變體）和AdamW最佳化器的Post-Norm架構滿足了這些條件。AdamW已被證明可以解決一個L∞約束最佳化問題，確保模型參數保持在1/λ的範圍內。

低級和高級遞迴模組fL和fH均使用具有相同架構和維度的僅編碼器Transformer區塊實現。這些模組接受多個輸入，我們通過簡單的逐元素加法將它們合併，儘管更複雜的合併技術（如門控機制）可能會提高效能，這將留待未來研究。在本工作中，包括基準模型中的所有Transformer區塊，我們都引入了基於Llama架構的現代大型語言模型中發現的增強功能。這些改進包括旋轉位置編碼、門控線性單元、RMSNorm以及從線性層中移除偏差項。

此外，HRM和循環Transformer模型都實現了Post-Norm架構，其權重通過截斷的LeCun正態初始化進行初始化，同時在RMSNorm中排除了縮放和偏差參數。所有參數都使用Adam-atan2最佳化器進行最佳化，這是一種Adam的尺度不變變體，結合了包含線性預熱的恆定學習率。

3 結果

本節首先介紹ARC-AGI、數獨和迷宮三個基準任務，隨後概述基準模型及其結果。圖6-(a,b,c)以視覺化方式展示了這三個基準任務，這些任務被精心選擇以評估AI模型在不同方面的推論能力。

3.1 基準任務

ARC-AGI挑戰任務

ARC-AGI基準通過類似智商測試的謎題來評估通用流體智慧，這些謎題需要歸納推論能力。最初的版本ARC-AGI-1將挑戰以輸入-輸出網格對的形式呈現，迫使AI系統僅從少量示例中提取並泛化出抽象規則。每個任務提供幾個輸入-輸出示例對（通常為2–3對）以及一個測試輸入。AI模型有兩次機會生成正確的輸出網格。儘管有人認為掌握ARC-AGI標誌著實現了真正的人工通用智慧，但其主要目的實際上是揭示當前人工通用智慧發展過程中的關鍵瓶頸。事實上，傳統的深度學習方法和思維鏈（CoT）技術在ARC-AGI-1上都面臨重大挑戰，主要原因在於該任務要求模型具備在全新任務上進行泛化的能力。

針對ARC-AGI-1中發現的局限性，ARC-AGI-2大幅擴展了該基準，提供了更全面且經過精心最佳化的任務集合。這些新任務更加強調深層次的組合推論、多步邏輯、上下文相關的規則應用以及符號抽象能力。人類校準研究表明，這些任務對人類而言具有挑戰性但可以完成，而對當前的AI系統則要困難得多，從而為衡量通用推論能力提供了更清晰的標準。

數獨-極致（Sudoku-Extreme）

數獨是一個9×9的邏輯謎題，要求每一行、每一列以及每一個3×3宮格都恰好包含數字1到9各一次。如果模型的預測結果與該謎題的唯一解完全一致，則視為正確。由於數獨具有複雜的邏輯結構，因此常被用作評估機器學習模型邏輯推論能力的流行基準任務。

當前研究中最常用的數獨資料集是Kaggle資料集，該資料集中的所有謎題均可通過基礎的單數位技巧完全解決。另一個廣泛使用的資料集是最小線索數為17的17-clue謎題集，由於其線索數量極少，表面上看似更具挑戰性。然而，這種看法具有誤導性——因為17是保證數獨有唯一解所需的最小線索數，這些線索必須彼此高度正交。這種正交排列反而導致了許多直接且易於解決的推論路徑。

我們提出了「數獨-極致」（Sudoku-Extreme），這是一個更具挑戰性的新資料集，它整合了上述較簡單的資料集，以及被數獨社群公認為對人類玩家來說極其困難的謎題：

簡單謎題：來自Kaggle資料集、17-clue資料集，以及從數獨謎題分佈中無偏採樣的樣本，共計1,149,158個謎題。困難謎題：來自Magictour 1465、Forum-Hard和Forum-Extreme子集，共計3,104,157個謎題。

整合後的資料經過嚴格的90/10訓練-測試集劃分，確保測試集中的謎題無法通過訓練集中任何樣本的等價變換得到。「數獨-極致」（Sudoku-Extreme）是該資料的一個下採樣子集，包含1000個訓練樣本。我們在主要實驗（圖1）中使用Sudoku-Extreme，重點關注小樣本學習場景。為了在分析實驗（圖2、圖3和圖5）中保證收斂性並控制過度擬合，我們使用完整的訓練資料「Sudoku-Extreme-Full」，包含3,831,994個樣本。

我們通過一個智能數獨求解程式tdoku所需的搜尋回溯次數（即「猜測」次數）來衡量謎題難度。該程式使用命題邏輯來減少猜測次數。我們的Sudoku-Extreme資料集平均每個謎題需要22次回溯，顯著高於現有資料集；例如，近期手工設計的Sudoku-Bench資料集平均每個謎題僅需0.45次回溯。這些子集的複雜度水準如圖6-(d)所示。

迷宮-困難（Maze-Hard）

該任務要求在30×30的迷宮中找到最佳路徑，因其可解釋性強，常被用於訓練大語言模型執行搜尋任務。我們採用Lehnert等人提出的實例生成方法，但額外增加一個篩選條件：僅保留難度超過110的實例。這裡的「難度」定義為最短路徑的長度，這與在GPU上運行的波前廣度優先搜尋演算法的線性時間複雜度相一致。一條路徑只有在有效且最佳（即從起點到終點的最短路徑）時才被視為正確。訓練集和測試集各包含1000個樣本。

3.2 評估細節

對於所有基準任務，HRM模型均從隨機權重初始化開始，使用輸入-輸出樣本對在序列到序列的框架下進行訓練。二維的輸入和輸出網格被展平後，填充至最大序列長度。最終效能結果如圖1所示。值得注意的是，HRM僅使用每個任務約1000個訓練樣本，且無需預訓練或思維鏈（CoT）標籤，便達到了這些效能表現。

對於ARC-AGI挑戰任務，我們使用訓練集和評估集中的所有輸入-輸出示例對。通過對謎題施加平移、旋轉、翻轉和顏色置換等方式進行資料增強。每個任務示例前會添加一個可學習的特殊標記，用於表示其所屬的謎題類型。在測試階段，對評估集中的每個測試輸入，我們按以下步驟進行：（1）生成並求解1000個增強後的變體，對每個變體的預測結果應用逆增強變換以還原原始形式；（2）選擇出現頻率最高的兩個預測結果作為最終輸出。所有結果均在評估集上報告。

對於數獨謎題，我們通過行帶（band）和數字置換進行資料增強；而迷宮任務則不啟用資料增強。這兩個任務均僅進行一次推論過程。

ARC-AGI任務中，CoT模型的得分來自官方排行榜；而對於數獨和迷宮任務，得分則是通過相應的API評估獲得。

在圖1中，基準模型根據是否經過預訓練以及是否使用CoT被分為不同組別。「直接預測」（Direct pred）基準指「不使用CoT且無預訓練的直接預測」，其訓練設置與HRM完全相同，僅將模型替換為Transformer架構。有趣的是，在ARC-AGI-1任務上，「直接預測」基準的表現與Liao和Gu相當——後者構建了一個精心設計的、針對該任務的領域特定等變網路，從零開始訓練且未使用預訓練。通過將Transformer架構替換為HRM的分層框架並引入ACT機制，我們的效能提升了兩倍以上。

在Sudoku-Extreme和Maze-Hard基準任務上，HRM與基準方法之間的效能差距極為顯著，因為基準方法幾乎無法解決這些任務。這些需要長推論鏈的任務對基於CoT的方法尤其困難。在僅使用1000個訓練樣本的情況下，採用與HRM相同規模的8層Transformer的「直接預測」基準在這些複雜推論問題上完全失敗。然而，當在更大的Sudoku-Extreme-Full資料集上訓練時，「直接預測」基準能夠解決部分簡單數獨謎題，準確率達到16.9%（見圖2）。Lehnert等人研究表明，一個擁有1.75億參數的普通Transformer模型，在多個訓練輪次中使用100萬個樣本訓練後，在30×30迷宮任務上的表現仍極為有限，使用pass@64評估指標時準確率仍低於20%。

3.3 中間時間步的視覺化

儘管HRM在複雜推論任務上表現出色，但它引發了一個有趣的疑問：HRM類神經網路實際上實現了哪些底層推論演算法？回答這個問題對於增強模型的可解釋性和深入理解HRM的解空間至關重要。

在迷宮任務中，HRM似乎最初同時探索幾條潛在路徑，隨後消除被阻塞或低效的路線，然後構建一個初步的解的輪廓，接著進行多次細化迭代。在數獨任務中，其策略類似於深度優先搜尋方法，模型似乎在探索潛在解，並在遇到死胡同時回溯。對於ARC任務，HRM採用不同的方法，對棋盤進行增量調整，並迭代改進，直到找到解。與數獨（涉及頻繁回溯）不同，ARC的解路徑遵循一種更連貫的進展，類似於爬山最佳化。

重要的是，模型表明它可以適應不同的推論方法，很可能是為每個特定任務選擇了一種有效的策略。需要進一步的研究來獲得對這些解策略更全面的見解。

4 大腦對應關係

系統神經科學中的一個關鍵原則是，大腦區域的功能多樣性——即其處理多種且複雜任務的能力——與其神經表示的維度密切相關。負責複雜推論和決策的高級皮質區域必須應對各種不同的任務，因而需要更靈活、更依賴上下文的處理機制。在動力系統中，這種靈活性通常通過更高維的狀態空間軌跡來實現，從而支持更豐富的潛在計算模式。這一原則形成了一種可觀測的維度層級結構，即大腦區域在資訊處理層級中的位置與其有效維度呈正相關。為了量化這一現象，我們可以考察「參與比」（Participation Ratio, PR），它是衡量高維表示有效維度的標準指標。

其中 {λi} 是神經活動軌跡協方差矩陣的特徵值。直觀上，較高的PR值表示方差在更多維度上均勻分佈，對應於更高維的表示；相反，較低的PR值表示方差集中在少數幾個主成分上，反映出更緊湊、更低維的結構。

這種維度層級結構可以在例如小鼠皮質中觀察到：群體神經活動的PR值從低級感覺區域到高級聯合區域呈現單調遞增趨勢，支持了表示維度與功能複雜性之間的關聯（見圖8(a,b)）。

我們通過在Sudoku-Extreme-Full資料集上訓練後，計算HRM中兩個循環模組的PR值，來檢驗該模型是否再現了這一神經科學原理。PR的計算基於在多個解數獨的神經活動軌跡中收集到的神經狀態所構建的協方差矩陣。結果顯示出與生物學發現驚人的一致性：低層模組的狀態（zL）佔據一個相對較小的子空間，參與比為30.22；而高層模組的狀態（zH）則在一個大得多的子空間中運行，參與比達到89.95，如圖8(c)所示。此外，圖8(d)顯示，當獨立任務（軌跡）數量從10增加到100時，zH 的維度隨之顯著上升，而 zL 的維度則保持穩定。這些結果表明，兩個模組在表示能力上出現了與各自功能角色相對應的自發性分離。

為了驗證這種層級結構是訓練過程中湧現出的特性，而非網路架構本身帶來的假象，我們進行了一項對照分析：使用一個結構相同但未經訓練、權重隨機的網路。

我們初始化了一個完全相同的HRM架構，賦予其隨機權重，在不進行任何訓練的情況下，讓該網路處理與訓練模型相同的任務特定輸入，並測量其各模組的PR值。

結果如圖8(e,f)所示，呈現出鮮明對比：未經訓練的網路中，高層與低層模組並未表現出層級分離，它們的PR值均較低，且彼此幾乎無法區分。這一對照分析驗證了維度層級結構是模型在學習複雜推論過程中湧現出的特性。

HRM中高層與低層的PR比值（zH / zL ≈ 2.98）與小鼠皮質中測得的比值（≈ 2.25）非常接近。相比之下，傳統深度網路常常表現出「神經塌縮」（neural collapse）現象，即最後一層特徵收斂到一個低維子空間。HRM則打破了這種塌縮模式，反而在其高層模組中發展出高維表示。這一點意義重大，因為此類高維表示被認為對認知靈活性至關重要，也是前額葉皮質（PFC）等高級腦區的典型特徵，而PFC正是複雜推論的核心所在。

這種結構上的相似性表明，該模型自主發現了某種基本的組織原則。通過將表示劃分為一個高容量、高維度的子空間（zH）和一個更專業化、低維度的子空間（zL），HRM自發地演化出一個被認為在生物系統中實現魯棒且靈活推論所必需的基本組織方式。這為該模型為何能在那些缺乏此類差異化內部結構的模型難以應對的複雜、長程任務上取得成功，提供了一種潛在的機制性解釋。

然而，我們強調，目前的證據僅為相關性。儘管可以通過干預手段（例如限制高層模組的維度）來檢驗其因果關係，但由於此類操作可能對訓練過程本身產生複雜的干擾效應，因此在深度學習中難以準確解讀。因此，這種湧現層級結構的因果必要性仍是未來研究的重要課題。

5 相關工作

推論與演算法學習

鑑於推論問題在人工智慧中的核心地位及其與演算法的緊密聯繫，研究人員長期以來一直在探索能夠從訓練實例中實現演算法學習的類神經網路架構。這一研究方向包括神經圖靈機（Neural Turing Machines, NTM）、可微分神經電腦（Differentiable Neural Computer, DNC）和神經GPU（Neural GPUs）——這些模型均構建了迭代式神經架構，模擬計算硬體以執行演算法，並通過資料訓練來學習演算法。該領域另一項重要工作是循環關係網路（Recurrent Relational Networks, RRN），它通過圖類神經網路在圖結構表示上執行演算法。

近年來，研究者將演算法學習方法與基於Transformer的架構相結合。通用Transformer通過在標準Transformer模型中引入層間的循環機制和自適應停止機制，擴展了其能力。Geiping等人表明，帶有循環結構的Transformer在推論階段可以泛化到比訓練時更多的循環步數。Shen等人提出在Transformer中加入連續的循環推論標記（recurrent reasoning tokens）。此外，TransNAR將循環圖類神經網路與語言模型相結合。

在基於思維鏈（CoT）的推論取得成功的基礎上，一系列研究提出了微調方法，使用搜尋演算法（如A*）生成的推論路徑作為監督微調（SFT）的目標。

我們還提及旨在為更複雜問題分配額外計算資源的自適應停止機制，例如用於循環類神經網路的自適應計算時間（Adaptive Computation Time, ACT），以及後續研究如PonderNet，旨在提升該資源分配過程的穩定性。

HRM通過一種受大腦啟發的計算架構，進一步拓展了演算法學習的邊界，實現了卓越的資料效率和模型表達能力，僅用1000個訓練樣本便成功發現了複雜且多樣的演算法。

受腦啟發的推論架構

構建具備大腦般推論能力的模型，一直是類腦計算領域長期追求的目標。Spaun是一個典型例子，它使用脈衝類神經網路構建了對應於視覺皮質、前額葉皮質等腦區的不同模組。這種設計使模型能夠執行一系列認知任務，從記憶回憶到簡單的推論謎題。然而，其推論依賴於人工設計的演算法，可能限制了其學習新任務的能力。

另一個重要模型是Tolman-Eichenbaum機器（Tolman-Eichenbaum Machine, TEM），其靈感來自海馬-內嗅皮質系統在空間與關係記憶任務中的作用。TEM提出，內側內嗅皮質細胞構建了結構化知識的基礎，而海馬細胞則將該基礎與感官資訊關聯起來。這一機制使TEM具備泛化能力，並解釋了網格細胞、邊界細胞和位置細胞等多種類神經元類型的出現。

另一類方法是神經採樣模型（neural sampling models），它將神經訊號過程視為在機率分佈上的推斷，其工作機制類似於玻爾茲曼機。這類模型通常需要為特定推論任務手動設定規則。

本質上，儘管先前的模型在簡單推論問題上取得進展，HRM則被設計用於解決即使是先進大語言模型也難以應對的複雜任務，且無需預訓練或任務特定的人工設計。

分層記憶

分層的多時間尺度結構在大腦處理記憶的過程中也起著重要作用。諸如分層序列模型（Hierarchical Sequential Models）和時鐘式RNN（Clockwork RNN）等模型，使用多個在不同時間尺度上運行的循環模組，以更有效地捕捉序列中的長距離依賴關係，從而緩解RNN中的遺忘問題。

類似機制也被應用於線性注意力方法中，以記憶長上下文（參見討論部分）。由於HRM聚焦於推論任務，為簡化設計採用了全注意力機制。將分層記憶機制引入HRM，可能是未來一個有前景的研究方向。

6 討論

HRM的圖靈完備性

與早期的神經推論演算法（如通用Transformer）類似，HRM在具備足夠記憶體和時間限制的條件下具有計算通用性。換言之，它屬於能夠模擬任意圖靈機的模型類別，從而克服了引言中提到的標準Transformer所存在的計算能力局限。由於早期的神經演算法推論器通常以循環類神經網路的形式訓練，它們容易出現過早收斂問題，且依賴計算和記憶體開銷巨大的BPTT（隨時間反向傳播）。因此，儘管其有效計算深度仍超過標準Transformer，但在實踐中仍受到限制。HRM通過解決上述兩個挑戰，並具備自適應計算能力，得以在長推論過程上進行訓練，解決需要深度優先搜尋和回溯的複雜謎題，從而更接近實際意義上的圖靈完備。

基於思維鏈的強化學習

除了使用人工標註的思維鏈（CoT）進行微調外，強化學習（RL）是另一種廣泛採用的訓練方法。然而，近期研究表明，強化學習主要作用是激發模型中已有的、類似CoT的推論能力，而非發現全新的推論機制。此外，結合CoT的強化學習以訓練不穩定和資料效率低下著稱，通常需要大量探索和精心設計的獎勵函數。相比之下，HRM依賴於密集的基於梯度的監督訊號，而非稀疏的獎勵訊號。此外，HRM自然地在連續空間中運行，這在生物學上更合理，且能根據各個標記在推論和規劃中的複雜程度差異，動態分配不同的計算資源，避免對所有標記一視同仁。

線性注意力機制

循環結構不僅因其在通用計算中的潛力而被研究，也被探索作為替代Transformer中注意力機制的手段，因為標準注意力機制存在時間和記憶體複雜度的平方級增長問題。循環型替代方案通過逐個順序處理輸入標記，並在每個時間步預測下一個標記，實現更有效率的架構設計，類似於早期基於RNN的語言模型。

一些線性注意力變體（如對數線性注意力Log-linear Attention）採用類似RNN的狀態更新機制，可被解釋為傳播多時間尺度的彙總統計資訊，從而在不產生標準自注意力的二次記憶體增長的前提下，保留長距離上下文資訊。然而，僅替換注意力機制並不能改變Transformer仍是固定深度模型的事實，仍需依賴思維鏈作為補償機制。值得注意的是，線性注意力可通過壓縮的鍵值快取處理更長上下文，使其更適合在資源受限的邊緣設備上部署。

7 結論

本研究提出了分層推論模型（Hierarchical Reasoning Model, HRM），這是一種受大腦啟發的架構，通過分層結構和多時間尺度處理，在不犧牲訓練穩定性與效率的前提下，實現了顯著的計算深度。僅使用2700萬參數並在1000個樣本上訓練，HRM便能有效解決ARC、數獨和複雜迷宮導航等具有挑戰性的推論任務——這些任務通常對當前的大語言模型和思維鏈方法構成重大挑戰。

儘管大腦在實現大多數認知功能時高度依賴分層結構，但這些理念在很大程度上仍停留在學術研究中，尚未廣泛轉化為實際應用。當前主流人工智慧方法仍傾向於非分層模型。我們的研究結果挑戰了這一既定範式，表明分層推論模型可作為當前主流的思維鏈推論方法的一種可行替代方案，朝著具備圖靈完備通用計算能力的基礎性框架邁出了重要一步。

原文連結：https://arxiv.org/abs/2506.21734

分層推論模型 Hierarchical Reasoning Model

分享短網址