❝簡而言之,作者對前人本就驚世駭俗的工作(HRM,僅有0.2億參數)進行了大幅度的改造,證明了真正的「深度」並非來自堆砌網路層數,而是源於計算的次數。透過讓一個極簡的兩層網路進行反覆的遞迴推理,這個去掉所有花俏設計的模型反而模擬出了比SOTA大型語言模型(LLM)更強大的邏輯能力,完美詮釋了何謂「少即是多」。(原論文題目請見文末,Published on arxiv on 06 Oct 2025, by Samsung SAIL Montréal)
第一階段:識別核心概念
論文的motivation分析
這篇論文的出發點非常明確,主要針對當前人工智慧領域,尤其是大型語言模型(LLMs)所面臨的一個困境:
大型模型的「脆弱性」:像GPT-4這樣的大型模型雖然知識淵博、能力強大,但在處理需要嚴格、多步、精確推理的任務時(比如解數獨、走迷宮、處理ARC-AGI這種抽象視覺謎題),表現並不完美。它們生成答案時是一步一步吐出單詞(token)的,只要中間一步走錯,整個答案可能就全盤皆輸。這就像一個才華橫溢但有點粗心的天才,偶爾會犯致命的小錯誤。
現有方法的局限性:為了提升大型模型的推理能力,研究者們提出了「思維鏈」(Chain-of-Thoughts, CoT)等方法,讓模型先「思考」再回答。但這套方法不僅計算成本高,而且依賴高品質的「思考過程」資料進行訓練,有時模型生成的「思考過程」本身就是錯的。
一個有潛力但複雜的前任:在此背景下,一篇名為《Hierarchical Reasoning Model (HRM)》的論文提出了一種新思路:用兩個小型網路進行「遞迴思考」,模仿大腦不同層次的活動頻率。這個HRM模型在一些謎題任務上取得了驚人的效果,證明了小型模型進行深度思考的潛力。然而,HRM模型本身設計非常複雜,依賴於複雜的生物學比喻和不一定成立的數學定理(不動點定理),並且在實現上有些低效。
因此,本文作者的動機可以概括為:能否繼承HRM「遞迴推理」的優點,但用一種更簡單、更健壯、更高效、也更強大的方式來實現它? 論文的標題「Less is More」(少即是多)完美地詮釋了這一動機——用更少的參數、更簡單的理論、更直接的方法,取得更好的效果。
論文主要貢獻點分析
這篇論文的核心貢獻在於提出了名為Tiny Recursive Model (TRM)的新模型,它對前人HRM進行了大刀闊斧的簡化和改進。
主要創新點:
結構簡化:將HRM中複雜的雙網路(一個高頻、一個低頻)結構簡化為單一的、更小的網路。
理論簡化:拋棄了HRM對複雜且不一定適用的「不動點定理」的依賴,不再需要假設模型的思考過程會達到一個穩定的「平衡點」。
概念簡化:摒棄了HRM晦澀的生物學「分層推理」解釋,提出了個更直觀的理解:模型維護一個「當前答案」和一個「當前思路(或草稿)」,並在這兩者之間迭代更新。
效率提升:簡化了HRM中用於提前終止訓練的機制(ACT),使其不再需要兩次前向傳播,從而提升了訓練效率。
性能飛躍:最終,這個更小、更簡單的TRM模型在多個高難度推理任務(如數獨、迷宮、ARC-AGI)上,不僅遠超HRM,甚至擊敗了參數量是其數萬倍的頂級大型語言模型。
支撐創新的關鍵技術:
全遞迴回傳(Full Recursive Backpropagation):TRM不再像HRM那樣只對最後一步思考進行梯度回傳,而是對一整個「思考-解答」的完整遞迴過程進行回傳。這雖然增加了單步的計算量,但讓模型學得更紮實,效果也更好。
深度監督(Deep Supervision):這是從HRM繼承並優化的核心機制。模型會進行多次「嘗試-改進」的循環。每一次嘗試的輸出都會被用來計算損失,然後模型會基於這次嘗試的結果(答案和思路)作為下一次嘗試的起點,繼續改進。這個過程模擬了一個非常深的網路,但避免了巨大的記憶體開銷。
潛在狀態的重新詮釋:TRM將HRM的兩個抽象的潛在變數重新定義為更易於理解的「思路/草稿」(latent reasoning z)和「答案」(predicted answer y)。這個簡單的概念轉變,使得整個模型的運作邏輯變得清晰明瞭。
顯著性結果: 最顯著的結果是以小博大的極致體現。一個僅有700萬參數的TRM模型,在ARC-AGI-1測試中獲得了45%的準確率,而千億甚至萬億參數的LLMs(如Gemini 2.5 Pro)也僅能達到類似或更低的水平。在極難的數獨任務上,TRM達到了87%的準確率,而大型模型們的準確率為0。這有力地證明了,對於某些類型的推理問題,優秀的演算法架構設計比單純的參數規模堆砌更重要。
理解難點識別
理解論文的關鍵概念:
遞迴推理(Recursive Reasoning):這是整個方法的核心。需要理解模型是如何反覆調用自身來逐步優化答案的。
深度監督(Deep Supervision):這是實現有效學習的關鍵。需要理解為什麼不是一次性訓練到底,而是分步監督,以及上一步的輸出如何作為下一步的輸入。
HRM與TRM的對比:理解TRM的精妙之處,很大程度上建立在理解它對HRM做了哪些「減法」以及這些減法為何有效之上。特別是關於「不動點定理」和「1步梯度近似」的廢除。
概念中最具挑戰性的部分: 最具挑戰性的部分是理解「遞迴推理」和「深度監督」是如何協同工作的。具體來說,模型在一次完整的「嘗試」(一次深度監督步驟)中,會進行T輪遞迴。在這T-1輪遞迴中,前一輪只是為了讓模型的「思路」和「答案」變得更好,而不用於學習(即不計算梯度)。只有最後一輪遞迴,模型才會「打開梯度開關」,讓學習訊號(loss)能夠回傳,從而更新網路權重。同時,這一輪的輸出狀態又會被「凍結」(detach),作為下一次「嘗試」的起點。這個機制有些繞,但它是模型能夠「深度思考」而又不會「記憶體爆炸」的根本。
最佳的解釋切入點就是TRM的核心工作循環。
第二階段:深入解釋核心概念
設計生活化比喻:學生解高難度數獨題
想像一下,一位非常聰明的學生正在挑戰一道極其困難的數獨題。這位學生的解題過程是這樣的:
解題工具:他面前有兩樣東西:
一張正式的答題卡(Sudoku Grid):這是他要最終提交的答案。(Predicted Answer y)
一張巨大的草稿紙(Scratchpad):這是他進行推理、演算和記錄各種可能性的地方。(Latent Reasoning z)
解題過程:
初步觀察:學生看了一眼題目,在答題卡上填上了幾個非常有把握的數字。
深度思考(草稿紙階段):接下來,他把注意力集中在草稿紙上。他看著當前的答題卡和題目,開始在草稿紙上瘋狂推演:「如果A位置填3,那麼B位置就必須是5,接著C位置就只能是8...」他會反覆進行這樣一連串的邏輯推導,不斷更新草稿紙上的內容,這個過程可能來來回回好幾遍,但他暫時不會把這些推論寫到答題卡上。(內部遞迴,n次更新z)
更新答案(答題卡階段):經過一番深思熟慮,他在草稿紙上形成了一套比較成熟的思路。然後,他回過頭來,根據草稿紙上的最終結論,更新一下答題卡,比如擦掉一個之前不確定的數字,填上一個經過深思熟慮的新數字。(1次更新y)
一輪嘗試結束:至此,他完成了一整輪的「嘗試-改進」。答題卡上的答案比之前更完善了。
老師的監督與學習:
階段性檢查:每當學生完成一輪「嘗試-改進」後,老師會過來看他的答題卡,並對照標準答案,告訴他:「你這一步做得不錯,但有幾個數字還是錯了。」(深度監督:基於y計算損失)
反思與學習:學生聽到老師的反馈後,他會僅僅回顧剛才那一輪的思考過程(草稿紙上的推演和最後落筆的決策),思考是哪裡出了問題,從而吸取教訓,調整自己的解題策略。他不會從頭開始反思自己解這道題以來的所有思路,那樣太累了。(單步回傳:梯度僅流過最後一輪遞迴步驟)
開啟新一輪嘗試:然後,他會把當前的答題卡和草稿紙上的內容作為新的起點,開始下一輪的「深度思考 -> 更新答案」循環,力求做得更好。(狀態分離:y.detach(), z.detach())
這個過程會重複很多次,直到學生最終完美地解出這道數獨題。
建立比喻與實際技術的對應關係
TRM的有效性建立在潛在變數功能明確分離之上。比喻與技術概念的對應關係如下:
比喻中的元素: 學生; 數獨題目; 答題卡(y); 草稿紙(z); 深度思考(n次); 更新答案(1次); 一整輪「嘗試-改進」; 老師的階段性檢查; 學生只反思最近一輪的思路; 把當前狀態作為新起點。
TRM中的技術概念: TRM模型(單一NN); 輸入Question(x); 潛在答案狀態(y); 潛在推理狀態(z); 內部推理循環(更新z); 答案更新步驟(更新y); 一次遞迴調用; 深度監督(Deep Supervision); 單步回傳(Backpropagation through one recursion step); 狀態分離(State Separation/Detach)。
深入技術細節
一個完整的訓練步驟(深度監督循環中的一步)如下:
進行 T-1 輪「無梯度」的遞迴優化: 這個階段對應學生在解題,但老師還沒來檢查,所以他只是在改進答案,而沒有進行「學習」。這使用類似
with torch.no_grad(): for j in range(T-1): y, z = latent_recursion(x, y, z, n)的程式碼區塊。這裡的torch.no_grad()告訴系統,不需要記錄梯度,極大地節省了記憶體。進行 1 輪「有梯度」的遞迴優化: 這是老師來檢查並提供回饋的關鍵時刻,學生需要從這次的經驗中學習。這在無梯度上下文之外呼叫
y, z = latent_recursion(x, y, z, n)。內部的
latent_recursion函數: 這對應一整輪的「深度思考 -> 更新答案」。這包括:n次思考(更新草稿紙 z) — 執行迴圈
for i in range(n): z = net(x, y, z)。數學形式為:新的思路 = 網路_思路部分( 拼接( 原始問題, 當前答案, 當前思路 ) )。每一次思考都是基於全域資訊的。1次更新(更新答題卡 y) — 執行
y = net(y, z)。數學形式為:新的答案 = 網路_答案部分( 拼接( 當前答案, 最終思路 ) )。模型現在的任務是根據這些思考結果來更新答案。
計算損失、反向傳播與模型更新: 損失的計算使用
loss = softmax_cross_entropy(output_head(y), y_true)。指令loss.backward()被呼叫時,梯度只會流過第2步中那唯一一次「有梯度」的latent_recursion呼叫,更新網路權重。準備下一次嘗試: 函式返回時,y和z會被
.detach()。這個操作切斷了它們與剛剛完成的計算圖的聯繫。得到的狀態包含了最新的答案和思路資訊,但本身不帶任何梯度歷史。這組分離後的狀態將作為下一次深度監督循環開始時的初始狀態。
這個循環會一直進行下去,直到達到T的上限,或者ACT機制判斷答案已經足夠好,可以提前終止對當前樣本的訓練。
總結
透過「學生解數獨」的比喻,可以深刻地理解TRM的核心機制:
TRM將複雜的推理任務分解為「思考」(更新z)和「行動」(更新y)兩個步驟。
透過在「深度監督」的框架下多次迭代這個「思考-行動」循環,TRM用一個小型網路模擬出了極深的推理過程。
關鍵的
.detach()操作和「單步回傳」機制,使得這種深度模擬在計算上成為可能,避免了記憶體爆炸,這正是TRM能夠「少即是多」的秘密武器。
這個機制的核心數學原理,可以通俗地總結為:「不斷試錯,但每次只從最近的錯誤中學習,並把修正後的結果當作新的起點。」
第三階段:詳細說明流程步驟
第1步:準備工作與初始化
輸入資料:從訓練集中取出一個樣本,包含:問題x(一個帶有空格的9x9數獨盤)和真實答案y_true(該數獨的完整、正確的答案)。
模型與狀態初始化:TRM網路net(一個已經隨機初始化的、層數很少的網路,例如2層)。潛在狀態初始化:模型需要兩個「記憶」或「狀態」來開始工作,包括潛在答案y(初始化為零向量或隨機向量)和潛在思路z(同樣初始化為零向量或隨機向量)。
第2步:進入深度監督循環(The Outer Loop)
模型將對這一個數獨問題進行多次(最多T = 16次)的「嘗試-改進」。下面是循環中一次完整的迭代過程。
輸入編碼:將輸入的數獨問題x透過一個嵌入層(Input Embedding)轉化為高維度的向量表示x_embed。這個x_embed將在後續的所有遞迴步驟中作為「恆定的問題背景」被使用。
第3步:執行深度遞迴(The deep_recursion Function)
這是TRM的核心。它由T_R(例如3)輪內部遞迴組成,目的是在一次學習(梯度更新)之前,讓模型有充分的「思考」時間。
預熱思考階段(T_R-1 輪無梯度遞迴):
目標:在不進行學習的情況下,儘可能地改進當前的y和z。(學生在老師檢查前自己先演算幾遍)。
執行流程:模型會執行T_R-1次(例如2次)
latent_recursion函數。將當前的x_embed, y, 和 z 輸入到函數;函數內部模型會進行n次「思考」(內部推理循環,更新z),然後更新答案y;這一輪的輸出y'和z'會成為下一輪的輸入。所有這些計算都在torch.no_grad()環境下進行。關鍵點:所有這些計算都在無梯度環境下進行,不會消耗梯度記憶體。
正式學習階段(最後1輪有梯度遞迴):
目標:執行與上面完全相同的遞迴過程,但這次要記錄下所有的計算步驟,以便模型能夠從中學習。
執行流程:模型再執行1次
latent_recursion函數,輸入是「預熱思考階段」最終輸出的y和z。這次計算沒有在無梯度環境下,因此計算圖被完整建構。
第4步:計算損失、反向傳播與模型更新
生成最終預測:從「正式學習階段」得到的最終潛在答案y,透過一個輸出頭(
output_head)進行解碼,得到預測的答案y_pred。計算損失:計算y_pred和真實答案y_true之間的交叉熵損失。模型還有一個輔助損失(ACT損失)幫助模型學會在適當的時候「提前下課」(early-stopping)。
反向傳播:
loss.backward()指令被呼叫。梯度會流經「正式學習階段」建構的計算圖往回傳播。重要的是,梯度不會流向「預熱思考階段」。參數更新:優化器(如AdamW)使用計算出的梯度來更新網路net的所有權重。至此,模型完成了一次「學習」。
第5步:狀態重置,準備下一次迭代
分離狀態:在
deep_recursion函數返回時,它輸出的y和z會被.detach()。這個操作切斷了它們與剛剛完成的計算圖的聯繫。進入下一次深度監督迭代:分離後的y'和z'將作為下一次深度監督循環開始時的初始y和z。模型會回到第2步,重複整個流程。
這個循環會一直進行下去,直到達到T的上限,或者ACT機制判斷答案已經足夠好。
第四階段:實驗設計與驗證分析
1. 主實驗設計解讀:核心論點的驗證
核心主張:TRM模型以更少的參數、更簡單的結構,在困難的推理任務上,性能優於其前身HRM和體量巨大的語言模型(LLMs)。
實驗設計:作者在多個基準測試上進行了直接的性能對決。
資料集選擇:包括Sudoku-Extreme & Maze-Hard(代表需要精確、長程、符號化推理的經典難題,非常適合檢驗模型的推理魯棒性);ARC-AGI-1 & ARC-AGI-2(衡量抽象推理能力的黃金標準,需要模型具備強大的歸納和泛化能力,被認為是通向通用人工智慧的重要里程碑)。這些選擇專門考驗LLM的推理「短板」,以凸顯TRM這類專用架構的優勢。
評價指標:採用準確率(Accuracy),因為這些任務的答案是唯一且確定的。
基線方法選擇:包括HRM(作為TRM的直接前身);Direct Prediction(與HRM/TRM相同大小模型的非遞迴直接預測,用於證明「遞迴」本身的必要性);頂級LLMs(如Deepseek、Claude、Gemini等,旨在說明TRM的架構優勢足以彌補甚至超越由巨大規模帶來的能力鴻溝)。
主實驗結果與結論:
在Sudoku-Extreme上,TRM-MLP版本達到了驚人的87.4%準確率,而HRM為55.0%,所有LLMs均為0.0%。這證明了TRM在符號邏輯推理上的壓倒性優勢。
在ARC-AGI-1和ARC-AGI-2上,TRM-Att版本分別取得了44.6%和7.8%的準確率,顯著高於HRM(40.3%/5.0%)和大多數LLMs(例如Gemini 2.5 Pro為37.0%/4.9%)。這表明TRM的遞迴推理機制在抽象視覺推理上也同樣有效。
結論:主實驗強有力地支撐了論文的核心論點。TRM在特定高難度推理領域,提出了一種比「大力出奇蹟」的LLM範式更有效、更高效的解決方案。
2. 消融實驗分析:內部元件的貢獻
消融實驗透過「控制變數法」精確地展示了TRM每一個設計決策的價值:
w/ 1-step gradientvs.TRM:將TRM的「全遞迴回傳」替換回HRM的「1步梯度近似」。準確率從87.4%斷崖式下跌至56.5%。證明:讓梯度流過整個遞迴過程是TRM性能飛躍的最關鍵因素。w/ separate fH, fLvs.TRM:將TRM的單一網路替換回HRM的雙網路結構。準確率從87.4%下降到82.4%。證明:雙網路不僅參數更多,而且效果更差。單一網路可能透過權值共享,學到了更泛化的推理能力,印證「Less is More」。w/ 4-layers, n=3vs.TRM:將TRM的2層網路加深為4層,同時減少遞迴次數n以保持總計算量相似。準確率從87.4%下降到79.5%。證明:透過增加遞迴次數來提升「計算深度」是一種更有效的正規化方式,迫使同一個小型網路學習更通用的功能。w/ self-attentionvs.TRM-MLP(在Sudoku上):將TRM-MLP版本中的通道混合MLP替換為標準的自注意力機制。準確率從87.4%下降到74.7%。證明:對於像數獨這樣的固定大小網格問題,自注意力機制可能過於靈活,反而不如簡單的MLP有效。
3. 深度/創新性實驗剖析:洞察方法的內在特性
理論假設驗證 (Table 2 - 不同數量的潛在特徵):實驗設計了單一特徵、多特徵和標準TRM(y+z)三個變體。結論:單特徵(71.9%)和多特徵(77.6%)的性能都顯著低於標準TRM(87.4%)。這個實驗極具說服力地證明了將「答案」和「思路」這兩個功能在潛在空間中顯式分離是至關重要的。
視覺化分析 (Figure 6 - 潛在狀態視覺化):作者將模型生成的潛在狀態y和z進行解碼和視覺化。結論:視覺化結果清晰地顯示,解碼後的y看起來就是一個部分完成的數獨答案,而解碼後的z則是一堆無法直接理解的、抽象的數字模式。這為作者對HRM潛在變數的重新詮釋提供了直觀且有力的證據。
性能與深度的權衡分析 (Table 3):他們定義了有效深度為n * T_R,並比較TRM和HRM在相同「有效計算深度」下的性能。結論:在任何一個可比的深度水平上,TRM的性能都一致地優於HRM。這個實驗證明了TRM的架構本身就更高效,能更好地利用每一次計算。
本文題目:Less is More: Recursive Reasoning with Tiny Networks