遞迴推理HRM模型再進化！TRM兩層網路(7M參數)擊敗大型語言模型！

❝簡而言之，作者對前人本就驚世駭俗的工作（HRM，僅有0.2億參數）進行了大幅度的改造，證明了真正的「深度」並非來自堆砌網路層數，而是源於計算的次數。透過讓一個極簡的兩層網路進行反覆的遞迴推理，這個去掉所有花俏設計的模型反而模擬出了比SOTA大型語言模型（LLM）更強大的邏輯能力，完美詮釋了何謂「少即是多」。（原論文題目請見文末，Published on arxiv on 06 Oct 2025, by Samsung SAIL Montréal）

第一階段：識別核心概念

論文的motivation分析

這篇論文的出發點非常明確，主要針對當前人工智慧領域，尤其是大型語言模型（LLMs）所面臨的一個困境：

大型模型的「脆弱性」：像GPT-4這樣的大型模型雖然知識淵博、能力強大，但在處理需要嚴格、多步、精確推理的任務時（比如解數獨、走迷宮、處理ARC-AGI這種抽象視覺謎題），表現並不完美。它們生成答案時是一步一步吐出單詞（token）的，只要中間一步走錯，整個答案可能就全盤皆輸。這就像一個才華橫溢但有點粗心的天才，偶爾會犯致命的小錯誤。
現有方法的局限性：為了提升大型模型的推理能力，研究者們提出了「思維鏈」（Chain-of-Thoughts, CoT）等方法，讓模型先「思考」再回答。但這套方法不僅計算成本高，而且依賴高品質的「思考過程」資料進行訓練，有時模型生成的「思考過程」本身就是錯的。
一個有潛力但複雜的前任：在此背景下，一篇名為《Hierarchical Reasoning Model (HRM)》的論文提出了一種新思路：用兩個小型網路進行「遞迴思考」，模仿大腦不同層次的活動頻率。這個HRM模型在一些謎題任務上取得了驚人的效果，證明了小型模型進行深度思考的潛力。然而，HRM模型本身設計非常複雜，依賴於複雜的生物學比喻和不一定成立的數學定理（不動點定理），並且在實現上有些低效。

因此，本文作者的動機可以概括為：能否繼承HRM「遞迴推理」的優點，但用一種更簡單、更健壯、更高效、也更強大的方式來實現它？ 論文的標題「Less is More」（少即是多）完美地詮釋了這一動機——用更少的參數、更簡單的理論、更直接的方法，取得更好的效果。

論文主要貢獻點分析

這篇論文的核心貢獻在於提出了名為Tiny Recursive Model (TRM)的新模型，它對前人HRM進行了大刀闊斧的簡化和改進。

主要創新點：

結構簡化：將HRM中複雜的雙網路（一個高頻、一個低頻）結構簡化為單一的、更小的網路。
理論簡化：拋棄了HRM對複雜且不一定適用的「不動點定理」的依賴，不再需要假設模型的思考過程會達到一個穩定的「平衡點」。
概念簡化：摒棄了HRM晦澀的生物學「分層推理」解釋，提出了個更直觀的理解：模型維護一個「當前答案」和一個「當前思路（或草稿）」，並在這兩者之間迭代更新。
效率提升：簡化了HRM中用於提前終止訓練的機制（ACT），使其不再需要兩次前向傳播，從而提升了訓練效率。
性能飛躍：最終，這個更小、更簡單的TRM模型在多個高難度推理任務（如數獨、迷宮、ARC-AGI）上，不僅遠超HRM，甚至擊敗了參數量是其數萬倍的頂級大型語言模型。

支撐創新的關鍵技術：

全遞迴回傳（Full Recursive Backpropagation）：TRM不再像HRM那樣只對最後一步思考進行梯度回傳，而是對一整個「思考-解答」的完整遞迴過程進行回傳。這雖然增加了單步的計算量，但讓模型學得更紮實，效果也更好。
深度監督（Deep Supervision）：這是從HRM繼承並優化的核心機制。模型會進行多次「嘗試-改進」的循環。每一次嘗試的輸出都會被用來計算損失，然後模型會基於這次嘗試的結果（答案和思路）作為下一次嘗試的起點，繼續改進。這個過程模擬了一個非常深的網路，但避免了巨大的記憶體開銷。
潛在狀態的重新詮釋：TRM將HRM的兩個抽象的潛在變數重新定義為更易於理解的「思路/草稿」（latent reasoning z）和「答案」（predicted answer y）。這個簡單的概念轉變，使得整個模型的運作邏輯變得清晰明瞭。

顯著性結果：最顯著的結果是以小博大的極致體現。一個僅有700萬參數的TRM模型，在ARC-AGI-1測試中獲得了45%的準確率，而千億甚至萬億參數的LLMs（如Gemini 2.5 Pro）也僅能達到類似或更低的水平。在極難的數獨任務上，TRM達到了87%的準確率，而大型模型們的準確率為0。這有力地證明了，對於某些類型的推理問題，優秀的演算法架構設計比單純的參數規模堆砌更重要。

理解難點識別

理解論文的關鍵概念：

遞迴推理（Recursive Reasoning）：這是整個方法的核心。需要理解模型是如何反覆調用自身來逐步優化答案的。
深度監督（Deep Supervision）：這是實現有效學習的關鍵。需要理解為什麼不是一次性訓練到底，而是分步監督，以及上一步的輸出如何作為下一步的輸入。
HRM與TRM的對比：理解TRM的精妙之處，很大程度上建立在理解它對HRM做了哪些「減法」以及這些減法為何有效之上。特別是關於「不動點定理」和「1步梯度近似」的廢除。

概念中最具挑戰性的部分：最具挑戰性的部分是理解「遞迴推理」和「深度監督」是如何協同工作的。具體來說，模型在一次完整的「嘗試」（一次深度監督步驟）中，會進行T輪遞迴。在這T-1輪遞迴中，前一輪只是為了讓模型的「思路」和「答案」變得更好，而不用於學習（即不計算梯度）。只有最後一輪遞迴，模型才會「打開梯度開關」，讓學習訊號（loss）能夠回傳，從而更新網路權重。同時，這一輪的輸出狀態又會被「凍結」（detach），作為下一次「嘗試」的起點。這個機制有些繞，但它是模型能夠「深度思考」而又不會「記憶體爆炸」的根本。

最佳的解釋切入點就是TRM的核心工作循環。

第二階段：深入解釋核心概念

設計生活化比喻：學生解高難度數獨題

想像一下，一位非常聰明的學生正在挑戰一道極其困難的數獨題。這位學生的解題過程是這樣的：

解題工具：他面前有兩樣東西：

一張正式的答題卡（Sudoku Grid）：這是他要最終提交的答案。（Predicted Answer y）
一張巨大的草稿紙（Scratchpad）：這是他進行推理、演算和記錄各種可能性的地方。（Latent Reasoning z）

解題過程：

初步觀察：學生看了一眼題目，在答題卡上填上了幾個非常有把握的數字。
深度思考（草稿紙階段）：接下來，他把注意力集中在草稿紙上。他看著當前的答題卡和題目，開始在草稿紙上瘋狂推演：「如果A位置填3，那麼B位置就必須是5，接著C位置就只能是8...」他會反覆進行這樣一連串的邏輯推導，不斷更新草稿紙上的內容，這個過程可能來來回回好幾遍，但他暫時不會把這些推論寫到答題卡上。（內部遞迴，n次更新z）
更新答案（答題卡階段）：經過一番深思熟慮，他在草稿紙上形成了一套比較成熟的思路。然後，他回過頭來，根據草稿紙上的最終結論，更新一下答題卡，比如擦掉一個之前不確定的數字，填上一個經過深思熟慮的新數字。（1次更新y）
一輪嘗試結束：至此，他完成了一整輪的「嘗試-改進」。答題卡上的答案比之前更完善了。

老師的監督與學習：

階段性檢查：每當學生完成一輪「嘗試-改進」後，老師會過來看他的答題卡，並對照標準答案，告訴他：「你這一步做得不錯，但有幾個數字還是錯了。」（深度監督：基於y計算損失）
反思與學習：學生聽到老師的反馈後，他會僅僅回顧剛才那一輪的思考過程（草稿紙上的推演和最後落筆的決策），思考是哪裡出了問題，從而吸取教訓，調整自己的解題策略。他不會從頭開始反思自己解這道題以來的所有思路，那樣太累了。（單步回傳：梯度僅流過最後一輪遞迴步驟）
開啟新一輪嘗試：然後，他會把當前的答題卡和草稿紙上的內容作為新的起點，開始下一輪的「深度思考 -> 更新答案」循環，力求做得更好。（狀態分離：y.detach(), z.detach()）

這個過程會重複很多次，直到學生最終完美地解出這道數獨題。

建立比喻與實際技術的對應關係

TRM的有效性建立在潛在變數功能明確分離之上。比喻與技術概念的對應關係如下：

比喻中的元素: 學生; 數獨題目; 答題卡（y）; 草稿紙（z）; 深度思考（n次）; 更新答案（1次）; 一整輪「嘗試-改進」; 老師的階段性檢查; 學生只反思最近一輪的思路; 把當前狀態作為新起點。

TRM中的技術概念: TRM模型（單一NN）; 輸入Question（x）; 潛在答案狀態（y）; 潛在推理狀態（z）; 內部推理循環（更新z）; 答案更新步驟（更新y）; 一次遞迴調用; 深度監督（Deep Supervision）; 單步回傳（Backpropagation through one recursion step）; 狀態分離（State Separation/Detach）。

深入技術細節

一個完整的訓練步驟（深度監督循環中的一步）如下：

進行 T-1 輪「無梯度」的遞迴優化： 這個階段對應學生在解題，但老師還沒來檢查，所以他只是在改進答案，而沒有進行「學習」。這使用類似 with torch.no_grad(): for j in range(T-1): y, z = latent_recursion(x, y, z, n) 的程式碼區塊。這裡的 torch.no_grad() 告訴系統，不需要記錄梯度，極大地節省了記憶體。
進行 1 輪「有梯度」的遞迴優化： 這是老師來檢查並提供回饋的關鍵時刻，學生需要從這次的經驗中學習。這在無梯度上下文之外呼叫 y, z = latent_recursion(x, y, z, n)。
內部的 latent_recursion 函數： 這對應一整輪的「深度思考 -> 更新答案」。這包括：
- n次思考（更新草稿紙 z） — 執行迴圈 for i in range(n): z = net(x, y, z)。數學形式為：新的思路 = 網路_思路部分( 拼接( 原始問題, 當前答案, 當前思路 ) )。每一次思考都是基於全域資訊的。
- 1次更新（更新答題卡 y） — 執行 y = net(y, z)。數學形式為：新的答案 = 網路_答案部分( 拼接( 當前答案, 最終思路 ) )。模型現在的任務是根據這些思考結果來更新答案。
計算損失、反向傳播與模型更新： 損失的計算使用 loss = softmax_cross_entropy(output_head(y), y_true)。指令 loss.backward() 被呼叫時，梯度只會流過第2步中那唯一一次「有梯度」的 latent_recursion 呼叫，更新網路權重。
準備下一次嘗試： 函式返回時，y和z會被 .detach()。這個操作切斷了它們與剛剛完成的計算圖的聯繫。得到的狀態包含了最新的答案和思路資訊，但本身不帶任何梯度歷史。這組分離後的狀態將作為下一次深度監督循環開始時的初始狀態。

這個循環會一直進行下去，直到達到T的上限，或者ACT機制判斷答案已經足夠好，可以提前終止對當前樣本的訓練。

總結

透過「學生解數獨」的比喻，可以深刻地理解TRM的核心機制：

TRM將複雜的推理任務分解為「思考」（更新z）和「行動」（更新y）兩個步驟。
透過在「深度監督」的框架下多次迭代這個「思考-行動」循環，TRM用一個小型網路模擬出了極深的推理過程。
關鍵的 .detach() 操作和「單步回傳」機制，使得這種深度模擬在計算上成為可能，避免了記憶體爆炸，這正是TRM能夠「少即是多」的秘密武器。

這個機制的核心數學原理，可以通俗地總結為：「不斷試錯，但每次只從最近的錯誤中學習，並把修正後的結果當作新的起點。」

第三階段：詳細說明流程步驟

第1步：準備工作與初始化

輸入資料：從訓練集中取出一個樣本，包含：問題x（一個帶有空格的9x9數獨盤）和真實答案y_true（該數獨的完整、正確的答案）。
模型與狀態初始化：TRM網路net（一個已經隨機初始化的、層數很少的網路，例如2層）。潛在狀態初始化：模型需要兩個「記憶」或「狀態」來開始工作，包括潛在答案y（初始化為零向量或隨機向量）和潛在思路z（同樣初始化為零向量或隨機向量）。

第2步：進入深度監督循環（The Outer Loop）

模型將對這一個數獨問題進行多次（最多T = 16次）的「嘗試-改進」。下面是循環中一次完整的迭代過程。

輸入編碼：將輸入的數獨問題x透過一個嵌入層（Input Embedding）轉化為高維度的向量表示x_embed。這個x_embed將在後續的所有遞迴步驟中作為「恆定的問題背景」被使用。

第3步：執行深度遞迴（The `deep_recursion` Function）

這是TRM的核心。它由T_R（例如3）輪內部遞迴組成，目的是在一次學習（梯度更新）之前，讓模型有充分的「思考」時間。

預熱思考階段（T_R-1 輪無梯度遞迴）：
- 目標：在不進行學習的情況下，儘可能地改進當前的y和z。（學生在老師檢查前自己先演算幾遍）。
- 執行流程：模型會執行T_R-1次（例如2次）latent_recursion 函數。將當前的x_embed, y, 和 z 輸入到函數；函數內部模型會進行n次「思考」（內部推理循環，更新z），然後更新答案y；這一輪的輸出y'和z'會成為下一輪的輸入。所有這些計算都在 torch.no_grad() 環境下進行。
- 關鍵點：所有這些計算都在無梯度環境下進行，不會消耗梯度記憶體。
正式學習階段（最後1輪有梯度遞迴）：
- 目標：執行與上面完全相同的遞迴過程，但這次要記錄下所有的計算步驟，以便模型能夠從中學習。
- 執行流程：模型再執行1次 latent_recursion 函數，輸入是「預熱思考階段」最終輸出的y和z。這次計算沒有在無梯度環境下，因此計算圖被完整建構。

第4步：計算損失、反向傳播與模型更新

生成最終預測：從「正式學習階段」得到的最終潛在答案y，透過一個輸出頭（output_head）進行解碼，得到預測的答案y_pred。
計算損失：計算y_pred和真實答案y_true之間的交叉熵損失。模型還有一個輔助損失（ACT損失）幫助模型學會在適當的時候「提前下課」（early-stopping）。
反向傳播：loss.backward() 指令被呼叫。梯度會流經「正式學習階段」建構的計算圖往回傳播。重要的是，梯度不會流向「預熱思考階段」。
參數更新：優化器（如AdamW）使用計算出的梯度來更新網路net的所有權重。至此，模型完成了一次「學習」。

第5步：狀態重置，準備下一次迭代

分離狀態：在 deep_recursion 函數返回時，它輸出的y和z會被 .detach()。這個操作切斷了它們與剛剛完成的計算圖的聯繫。
進入下一次深度監督迭代：分離後的y'和z'將作為下一次深度監督循環開始時的初始y和z。模型會回到第2步，重複整個流程。

這個循環會一直進行下去，直到達到T的上限，或者ACT機制判斷答案已經足夠好。

第四階段：實驗設計與驗證分析

1. 主實驗設計解讀：核心論點的驗證

核心主張：TRM模型以更少的參數、更簡單的結構，在困難的推理任務上，性能優於其前身HRM和體量巨大的語言模型（LLMs）。
實驗設計：作者在多個基準測試上進行了直接的性能對決。
- 資料集選擇：包括Sudoku-Extreme & Maze-Hard（代表需要精確、長程、符號化推理的經典難題，非常適合檢驗模型的推理魯棒性）；ARC-AGI-1 & ARC-AGI-2（衡量抽象推理能力的黃金標準，需要模型具備強大的歸納和泛化能力，被認為是通向通用人工智慧的重要里程碑）。這些選擇專門考驗LLM的推理「短板」，以凸顯TRM這類專用架構的優勢。
- 評價指標：採用準確率（Accuracy），因為這些任務的答案是唯一且確定的。
- 基線方法選擇：包括HRM（作為TRM的直接前身）；Direct Prediction（與HRM/TRM相同大小模型的非遞迴直接預測，用於證明「遞迴」本身的必要性）；頂級LLMs（如Deepseek、Claude、Gemini等，旨在說明TRM的架構優勢足以彌補甚至超越由巨大規模帶來的能力鴻溝）。
主實驗結果與結論：
- 在Sudoku-Extreme上，TRM-MLP版本達到了驚人的87.4%準確率，而HRM為55.0%，所有LLMs均為0.0%。這證明了TRM在符號邏輯推理上的壓倒性優勢。
- 在ARC-AGI-1和ARC-AGI-2上，TRM-Att版本分別取得了44.6%和7.8%的準確率，顯著高於HRM（40.3%/5.0%）和大多數LLMs（例如Gemini 2.5 Pro為37.0%/4.9%）。這表明TRM的遞迴推理機制在抽象視覺推理上也同樣有效。
- 結論：主實驗強有力地支撐了論文的核心論點。TRM在特定高難度推理領域，提出了一種比「大力出奇蹟」的LLM範式更有效、更高效的解決方案。

2. 消融實驗分析：內部元件的貢獻

消融實驗透過「控制變數法」精確地展示了TRM每一個設計決策的價值：

w/ 1-step gradient vs. TRM：將TRM的「全遞迴回傳」替換回HRM的「1步梯度近似」。準確率從87.4%斷崖式下跌至56.5%。證明：讓梯度流過整個遞迴過程是TRM性能飛躍的最關鍵因素。
w/ separate fH, fL vs. TRM：將TRM的單一網路替換回HRM的雙網路結構。準確率從87.4%下降到82.4%。證明：雙網路不僅參數更多，而且效果更差。單一網路可能透過權值共享，學到了更泛化的推理能力，印證「Less is More」。
w/ 4-layers, n=3 vs. TRM：將TRM的2層網路加深為4層，同時減少遞迴次數n以保持總計算量相似。準確率從87.4%下降到79.5%。證明：透過增加遞迴次數來提升「計算深度」是一種更有效的正規化方式，迫使同一個小型網路學習更通用的功能。
w/ self-attention vs. TRM-MLP (在Sudoku上)：將TRM-MLP版本中的通道混合MLP替換為標準的自注意力機制。準確率從87.4%下降到74.7%。證明：對於像數獨這樣的固定大小網格問題，自注意力機制可能過於靈活，反而不如簡單的MLP有效。

3. 深度/創新性實驗剖析：洞察方法的內在特性

理論假設驗證 (Table 2 - 不同數量的潛在特徵)：實驗設計了單一特徵、多特徵和標準TRM（y+z）三個變體。結論：單特徵（71.9%）和多特徵（77.6%）的性能都顯著低於標準TRM（87.4%）。這個實驗極具說服力地證明了將「答案」和「思路」這兩個功能在潛在空間中顯式分離是至關重要的。
視覺化分析 (Figure 6 - 潛在狀態視覺化)：作者將模型生成的潛在狀態y和z進行解碼和視覺化。結論：視覺化結果清晰地顯示，解碼後的y看起來就是一個部分完成的數獨答案，而解碼後的z則是一堆無法直接理解的、抽象的數字模式。這為作者對HRM潛在變數的重新詮釋提供了直觀且有力的證據。
性能與深度的權衡分析 (Table 3)：他們定義了有效深度為n * T_R，並比較TRM和HRM在相同「有效計算深度」下的性能。結論：在任何一個可比的深度水平上，TRM的性能都一致地優於HRM。這個實驗證明了TRM的架構本身就更高效，能更好地利用每一次計算。

本文題目：Less is More: Recursive Reasoning with Tiny Networks