再帰的推論HRMモデルがさらなる進化！TRMの2層ネットワーク（7Mモデル）がLLMを凌駕！

❝要約すると、著者は、すでに驚くべき先行研究（HRM、わずか0.2Bパラメータ）を大胆に改革し、真の「深さ」はネットワーク層を積み重ねることからではなく、計算の回数から生まれることを証明しました。この極めてシンプルな2層ネットワークに反復的な再帰的推論を実行させることで、派手な設計を一切排除したこのモデルは、最先端の大規模モデルよりも強力な論理的能力をシミュレートし、「少ないほど豊かである（Less is More）」という原則を完全に体現しました。（原論文のタイトルは文末を参照。Published on arxiv on 06 Oct 2025, by Samsung SAIL Montréal）

第1段階：核となる概念の特定

論文のモチベーション分析

この論文の出発点は明確であり、主に現在のAI分野、特に大規模言語モデル（LLMs）が直面している課題に対処しています。

大規模モデルの「脆弱性」：GPT-4のような大規模モデルは知識豊富で強力ですが、厳密な多段階の正確な推論が必要なタスク（数独の解答、迷路のナビゲーション、ARC-AGIのような抽象的な視覚パズル）を処理する際には、完璧ではありません。これらはトークンを一つずつ出力するため、途中で一度でも間違えると、全体の解答が台無しになる可能性があります。これは、才能はあるが時々不注意な天才が致命的な小さなミスを犯すのに似ています。
既存手法の限界：LLMの推論能力を向上させるために、研究者たちは「思考の連鎖」（Chain-of-Thoughts, CoT）などの手法を提案し、モデルに「思考」させてから回答させます。しかし、この手法は計算コストが高いうえ、高品質な「思考プロセス」データに依存して学習するため、モデルが生成する「思考プロセス」自体が間違っている場合もあります。
潜在的だが複雑な前任者：このような背景のもと、『Hierarchical Reasoning Model (HRM)』という論文が、2つの小さなネットワークを用いて「再帰的思考」を行うという新しいアイデアを提案しました。これは脳の異なるレベルの活動周波数を模倣したものです。HRMモデルはいくつかのパズルタスクで驚異的な結果を達成し、小型モデルが深い思考を行う可能性を証明しました。しかし、HRMモデル自体の設計は非常に複雑で、複雑な生物学的比喩や必ずしも成立しない数学的定理（不動点定理）に依存しており、実装効率も低いという問題がありました。

したがって、本論文の著者の動機は次のように要約できます。HRMの「再帰的推論」の利点を継承しつつ、それをよりシンプルで、より堅牢で、より効率的で、より強力な方法で実現できないか？ 論文のタイトル「Less is More」（少ないほど豊かである）は、より少ないパラメータ、よりシンプルな理論、より直接的な方法で、より良い結果を達成するというこの動機を完璧に説明しています。

論文の主な貢献点の分析

この論文の核心的な貢献は、Tiny Recursive Model (TRM)という新しいモデルの提案です。これは前任者であるHRMを大幅に簡素化し、改善したものです。

主要な革新点：

構造の簡素化：HRMの複雑なデュアルネットワーク（高周波、低周波）構造を、単一のより小さなネットワークに簡素化しました。
理論の簡素化：HRMが依存していた複雑で適用可能とは限らない「不動点定理」への依存を放棄し、モデルの思考プロセスが安定した「平衡点」に達するという仮定を不要にしました。
概念の簡素化：HRMの難解な生物学的「階層的推論」の説明を廃止し、モデルが「現在の解答」と「現在のアイデア（または下書き）」を維持し、この2つを反復的に更新するという、より直感的な理解を提唱しました。
効率の向上：HRMで使用されていた早期訓練終了メカニズム（ACT）を簡素化し、2回の順伝播を不要にすることで、訓練効率を向上させました。
性能の飛躍：最終的に、このより小さく、よりシンプルなTRMモデルは、複数の高難度推論タスク（数独、迷路、ARC-AGIなど）でHRMを遥かに凌駕しただけでなく、パラメータ数が数万倍もあるトップティアの大規模言語モデルをも打ち負かしました。

革新を支える主要技術：

全再帰的バックプロパゲーション（Full Recursive Backpropagation）：TRMはHRMのように最後の思考ステップにのみ勾配を逆伝播させる近似を行わず、「思考と解答」の再帰的プロセス全体に対して勾配を逆伝播させます。これにより、単一ステップの計算量は増加しますが、モデルはより堅固に学習し、結果も向上します。
ディープ・スーパービジョン（Deep Supervision）：これはHRMから継承され、最適化された中核メカニズムです。モデルは複数の「試行と改善」のループを実行します。各試行の出力は損失計算に使用され、モデルはこの試行の結果（解答とアイデア）を次の試行の開始点として使用し、改善を続けます。このプロセスは非常に深いネットワークをシミュレートしますが、巨大なメモリオーバーヘッドを回避します。
潜在状態の再解釈：TRMは、HRMの2つの抽象的な潜在変数（hとy）を、より理解しやすい「アイデア/下書き」（潜在的推論 z）と「解答」（予測解答 y）として再定義しました。この単純な概念の転換により、モデル全体の動作ロジックが明確になりました。

顕著な結果：最も顕著な結果は、小さなモデルが大きなモデルに勝ることの極端な実証です。わずか700万パラメータのTRMモデルが、ARC-AGI-1テストで45%の精度を達成しました。これは、数千億から数兆パラメータを持つLLM（例：Gemini 2.5 Pro）が達成するレベルと同等か、それ以上です。極めて難しい数独タスクでは、TRMは87%の精度に達しましたが、大規模モデルの精度は0%でした。これは、特定の種類の推論問題にとって、優れたアルゴリズム設計アーキテクチャは、単にパラメータ規模を積み重ねることよりも重要であることを強く証明しています。

理解の難しさの特定

論文の主要概念の理解：

再帰的推論（Recursive Reasoning）：この手法の核です。モデルが自身を繰り返し呼び出して解答を段階的に最適化する方法を理解する必要があります。
ディープ・スーパービジョン（Deep Supervision）：効果的な学習を実現するための鍵です。なぜ一度に学習を終えず、段階的に監視するのか、そして前のステップの出力がどのように次のステップの入力となるのかを理解する必要があります。
HRMとTRMの比較：TRMの精巧さを理解することは、HRMに対してどのような「引き算」が行われ、なぜそれが効果的だったのかを理解することに大きく基づいています。特に「不動点定理」と「1ステップ勾配近似」の廃止についてです。

概念的に最も難しい部分：最も難しいのは、「再帰的推論」と「ディープ・スーパービジョン」がどのように連携して機能するかを理解することです。具体的には、モデルは1回の完全な「試行」（1回のディープ・スーパービジョンステップ）の中でT_R回の再帰を実行します。最初のT_R-1回の再帰は、モデルの「アイデア」と「解答」を改善するためだけに使われ、学習には使用されません（つまり、勾配は計算されません）。最後の1回の再帰でのみ、モデルは「勾配スイッチをオン」にし、学習信号（損失）が逆伝播できるようにして、ネットワークの重みを更新します。同時に、このラウンドの出力状態は「デタッチ」（切り離し）され、次の「試行」の出発点として使用されます。このメカニズムは複雑ですが、モデルが「深く思考」しながら「メモリ爆発」を起こさないための根本原理です。

最適な説明の切り口は、TRMの核心的な動作ループです。

第2段階：核となる概念の深い説明

生活に根差した比喩：高難度数独を解く学生

非常に賢い学生が極めて難しい数独問題に挑戦していると想像してください。この学生は一気に解くことはなく、その解法プロセスは次のようになります。

解法ツール：目の前には2つのものがあります。

正式な解答用紙（数独グリッド）：最終的に提出する解答です。（Predicted Answer y）
巨大な下書き用紙（スクラッチパッド）：推論、演算、様々な可能性を記録する場所です。（Latent Reasoning z）

解法プロセス：

初期観察：学生は問題を見て、自信のある数字をいくつか解答用紙に記入します。
深い思考（下書き用紙フェーズ）：次に、下書き用紙に集中します。現在の解答用紙と問題を見ながら、下書き用紙に猛烈に推論を始めます：「Aの位置に3を埋めたら、Bの位置は5になり、Cの位置は8である必要がある...」この論理的推論を何回も繰り返し、下書き用紙の内容を絶えず更新しますが、これらの推論をまだ解答用紙には書きません。（内部再帰、zのn回更新）
解答の更新（解答用紙フェーズ）：深く考えた後、下書き用紙に比較的成熟した一連のアイデアが形成されます。そして、下書き用紙の最終的な結論に基づいて、解答用紙を更新します。例えば、以前不確実だった数字を消し、熟考した新しい数字を記入します。（yの1回更新）
1ラウンドの試行終了：これで「試行と改善」の全ラウンドが完了しました。解答用紙の解答は以前よりも改善されています。

教師の監督と学習：

段階的なチェック：学生が「試行と改善」の1ラウンドを終えるたびに、教師がやってきて解答用紙を確認し、正解と照らし合わせて、「このステップは良かったが、いくつかの数字はまだ間違っている」と伝えます。（ディープ・スーパービジョン：yに基づいて損失を計算）
反省と学習：教師のフィードバックを聞いた後、学生は直前のそのラウンドの思考プロセスだけ（下書き用紙の推論と最後に解答を書いた決定）を振り返り、何が間違っていたのかを考え、解法戦略を調整します。問題を解き始めてからのすべての思考を最初から反省することはしません。それは疲れすぎるからです。（単ステップ逆伝播：勾配は最後の再帰ステップのみを流れる）
新しい試行の開始：そして、現在の解答用紙と下書き用紙の内容を新しい出発点として、次の「深い思考 -> 解答の更新」ループを開始し、より良い結果を目指します。（状態の切り離し：y.detach(), z.detach()）

このプロセスは、学生が最終的に数独問題を完璧に解くまで何度も繰り返されます。

比喩と実際の技術の対応関係の構築

TRMの有効性は、潜在変数の機能が明確に分離されていることに起因します。対応関係は以下の通りです。

比喩の要素： 学生; 数独問題; 解答用紙（y）; 下書き用紙（z）; 深い思考（n回）; 解答の更新（1回）; 全体の試行と改善ラウンド; 教師の段階的なフィードバック; 直前のラウンドのみの反省; 現在の状態を新しい出発点とすること。

TRMの技術概念： TRMモデル（単一NN）; 入力問題（x）; 潜在的解答状態（y）; 潜在的推論状態（z）; 内部推論ループ（zの更新）; 解答更新ステップ（yの更新）; 1回の再帰呼び出し; ディープ・スーパービジョン; 単ステップ逆伝播; 状態の切り離し。

技術詳細の深化

1回の完全な訓練ステップ（ディープ・スーパービジョンループの1ステップ）は以下の通りです：

T-1回の「勾配なし」再帰的最適化の実行： これは、教師がチェックに来る前に学生が問題を解いている段階に対応し、「学習」せずに解答の改善に焦点を当てます。これは、with torch.no_grad(): for j in range(T-1): y, z = latent_recursion(x, y, z, n) のようなコードブロックを使用します。torch.no_grad() は勾配の記録を防ぎ、メモリを大幅に節約します。
1回の「勾配あり」再帰的最適化の実行： これは学習にとって重要な瞬間です。これは、no-gradコンテキスト外で y, z = latent_recursion(x, y, z, n) を呼び出すことで行われます。
内部の latent_recursion 関数： これは「深い思考 -> 解答の更新」の1ラウンド全体に対応します。これには以下が含まれます：
- n回の思考（下書き用紙zの更新） — ループ for i in range(n): z = net(x, y, z) が実行されます。数学的には：新しいアイデア = NN_アイデア部分( 結合( 元の問題, 現在の解答, 現在のアイデア ) )。すべての思考は全体情報に基づいています。
- 1回の更新（解答用紙yの更新） — y = net(y, z) が実行されます。数学的には：新しい解答 = NN_解答部分( 結合( 現在の解答, 最終的なアイデア ) )。モデルは洗練された思考に基づいて解答を更新します。
損失の計算、逆伝播、およびモデルの更新： 損失は loss = softmax_cross_entropy(output_head(y), y_true) を使用して計算されます。loss.backward() コマンドは、ステップ2の唯一の「勾配あり」の latent_recursion 呼び出しを通じてのみ勾配を流し、ネットワークの重みを更新します。
次の試行のための状態のリセット： 関数から戻るときに、yとzは .detach() されます。これにより、それらは学習に使用された計算グラフとの接続を切断されます。切り離された状態は、改善された次のディープ・スーパービジョンループの初期状態となります。

このループは、最大Tに達するか、ACTメカニズムが早期終了をトリガーするまで繰り返されます。

まとめ

「数独を解く学生」の比喩を通じて、TRMの核となるメカニズムを深く理解できます。

TRMは、複雑な推論タスクを「思考」（zの更新）と「行動」（yの更新）の2つのステップに分解します。
「ディープ・スーパービジョン」のフレームワーク内でこの「思考-行動」ループを繰り返し反復することで、TRMは小さなネットワークを使用して極めて深い推論プロセスをシミュレートします。
重要な .detach() 操作と「単ステップ逆伝播」メカニズムにより、この深いシミュレーションが計算上可能になり、メモリ爆発を防いでいます。これこそがTRMの「少ないほど豊かである」成功の秘密兵器です。

このメカニズムの核心的な数学原理は、通俗的に次のように要約できます。「絶えず試行錯誤するが、常に最新の過ちからのみ学習し、修正された結果を新しい出発点とする。」

第3段階：手順の詳細説明

ステップ1：準備と初期化

入力データ：訓練セットからサンプルを取得します。問題x（空欄のある9x9の数独盤）と、真の解答y_true（完全で正しい数独の解答）が含まれます。
モデルと状態の初期化：TRMネットワークnet（ランダムに初期化された、層の少ないネットワーク、例：2層）。潜在状態の初期化：潜在的解答y（ゼロベクトルまたはランダムベクトルとして初期化）と潜在的アイデアz（同様に初期化）の2つの「記憶」または「状態」で作業を開始します。

ステップ2：ディープ・スーパービジョンループへの移行（アウター・ループ）

モデルはこの数独問題に対して複数回（最大T = 16回）の「試行と改善」を行います。以下は、ループ内の1回の完全な反復プロセスです。

入力エンコーディング：入力された数独問題xは、埋め込み層（Input Embedding）を介して高次元のベクトル表現x_embedに変換されます。このx_embedは、後続のすべての再帰ステップで「不変の問題背景」として使用されます。

ステップ3：ディープ再帰の実行（`deep_recursion` 関数）

これはTRMの核です。これはT_R（例：3）回の内部再帰で構成されており、1回の学習（勾配更新）ステップの前に、モデルに十分な「思考」時間を与えることを目的としています。

ウォームアップ思考フェーズ（T_R-1回の勾配なし再帰）：
- 目標：学習を行わずに、現在のyとzを可能な限り改善します。（教師のチェック前の学生の自主的な演習）。
- 実行フロー：モデルは latent_recursion 関数をT_R-1回（例：2回）実行します。この計算はすべて torch.no_grad() 環境下で行われます。内部では、n回の「思考」（zの更新）と1回の解答更新（yの更新）が行われ、出力y'とz'が次のラウンドの入力になります。
- キーポイント：計算グラフは構築されず、勾配メモリは消費されません。
正式学習フェーズ（最後の1回の勾配あり再帰）：
- 目標：上記とまったく同じ再帰プロセスを実行しますが、今回はモデルがそこから学習できるように、すべての計算ステップを記録します。
- 実行フロー：モデルは、ウォームアップフェーズの最終出力であるyとzを入力として、latent_recursion 関数をさらに1回実行します。この計算は勾配環境下で行われるため、計算グラフが完全に構築されます。

ステップ4：損失の計算、逆伝播、およびモデルの更新

最終予測の生成：「正式学習フェーズ」で得られた最終的な潜在解答yは、出力ヘッド（output_head）を介してデコードされ、予測解答y_predが得られます。
損失の計算：y_predと真の解答y_trueの間のクロスエントロピー損失を計算します。また、早期終了を助けるためのACT損失（オプション）も計算されます。
逆伝播：loss.backward() が呼び出されます。勾配は、「正式学習フェーズ」で構築された計算グラフに沿って逆伝播します。重要なのは、勾配は「ウォームアップ思考フェーズ」には流れないことです。
パラメータの更新：オプティマイザ（例：AdamW）は、計算された勾配を使用してネットワークnetのすべての重みを更新します。これで1回の「学習」が完了します。

ステップ5：状態のリセット、次の反復の準備

状態の切り離し：deep_recursion 関数から戻る際に、出力されたyとzは .detach() されます。これにより、それらは直前に完了した計算グラフとの接続を切断されます。
次のディープ・スーパービジョン反復への移行：切り離されたy'とz'は、次（2回目）のディープ・スーパービジョンループの開始時の初期yとzとなります。モデルはステップ2に戻り、全プロセスを繰り返します。

このループは、Tの上限に達するか、ACTメカニズムが早期終了を判断するまで継続します。

第4段階：実験設計と検証分析

1. 主実験設計の解釈：核心的主張の検証

核心的主張：TRMモデルは、より少ないパラメータとよりシンプルな構造で、困難な推論タスクにおいて、前任者のHRMや巨大なLLMよりも優れた性能を発揮します。
実験設計：複数のベンチマークで直接的な性能対決を行いました。
- データセットの選択：Sudoku-Extreme & Maze-Hard（正確な長距離の記号推論が必要な古典的な難題）；ARC-AGI-1 & ARC-AGI-2（抽象的推論能力を測るゴールドスタンダード）。これらのデータセットは、LLMが苦手とする推論の「試金石」となるように選ばれており、TRMのような専用アーキテクチャの優位性を最も強力に示します。
- 評価指標：解答が一意で確定しているため、精度（Accuracy）を採用。
- ベースラインの選択：HRM（TRMの直接的な前身）；Direct Prediction（HRM/TRMと同じサイズの非再帰モデルで、「再帰」メカニズム自体の必要性を証明）；トップティアLLMs（Gemini、Claudeなど。TRMのアーキテクチャの優位性が巨大な規模による能力の隔たりを埋めるか、超えることを示す）。
主な結果と結論（表4および表5）：
- Sudoku-Extremeでは、TRM-MLPバージョンは驚異的な87.4%の精度を達成し、HRMは55.0%、すべてのLLMは0.0%でした。これは、TRMの記号論理推論における圧倒的な優位性を証明しています。
- ARC-AGI-1およびARC-AGI-2では、TRM-Attバージョンはそれぞれ44.6%と7.8%の精度を獲得し、HRM（40.3%/5.0%）およびほとんどのLLM（例：Gemini 2.5 Proは37.0%/4.9%）よりも顕著に優れていました。これは、TRMの再帰的推論メカニズムが抽象的な視覚推論においても有効であることを示しています。
- 結論：主実験は、論文の核心的主張を強く裏付けています。TRMは、特定の高難度推論領域において、「力ずくで解決する」LLMパラダイムよりも効果的で効率的なソリューションを提案しています。

2. アブレーション実験分析：内部コンポーネントの貢献

アブレーション実験（Table 1）は、TRMの設計上の決定一つ一つの価値を、制御変数法を用いて正確に示しています。

w/ 1-step gradient vs. TRM：TRMの「全再帰的バックプロパゲーション」メカニズムを、HRMが使用していた「1ステップ勾配近似」に置き換えました。精度は87.4%から56.5%へと急落しました。証明：これは、勾配を再帰的プロセス全体に流すことが、TRMの性能飛躍の最も重要な要素であることを雄弁に証明しています。
w/ separate fH, fL vs. TRM：TRMの単一ネットワークをHRMのデュアルネットワーク構造に戻しました。精度は87.4%から82.4%に低下しました。証明：デュアルネットワークはパラメータが多いだけでなく、効果も劣ることを示しています。単一ネットワークは重み共有を通じて、より汎用的な推論能力を学習している可能性があり、「Less is More」を再確認させています。
w/ 4-layers, n=3 vs. TRM：TRMの2層ネットワークを4層に深くし、同時に再帰回数nを減らして総計算量を同程度に保ちました。精度は87.4%から79.5%に低下しました。証明：ネットワークの深さを増すことで性能を向上させることは、小さなデータセットでは過学習につながりやすいです。一方、再帰回数を増やすことで「計算の深さ」を向上させる方法は、同じ小さなネットワークを異なるステップで繰り返し使用することを強制し、より汎用的な機能を学習させる、より効果的な正則化手法となります。
w/ self-attention vs. TRM-MLP (数独にて)：TRM-MLPバージョンで使われているチャネル混合MLPを標準的な自己注意メカニズムに置き換えました。精度は87.4%から74.7%に低下しました。証明：数独のような固定グリッド問題に対しては、自己注意メカニズムのグローバルな受容野は柔軟すぎる可能性があり、シンプルなMLPよりも効果が劣ることを示しています。これは、アーキテクチャの選択がタスク特性と一致する必要があることを明らかにしています。

3. 深掘り実験分析：手法の内在的特性の洞察

理論的仮説の検証（Table 2 - 異なる潜在特徴の数）：著者は、「解答状態y + アイデア状態z」という仮説が最適であるかを検証しました。単一特徴（71.9%）と多特徴（77.6%）の性能は、標準TRM（87.4%）よりも著しく低くなりました。結論：この実験は、「解答」と「アイデア」という2つの機能を潜在空間で明示的に分離することが極めて重要であることを説得力をもって証明しています。
可視化分析（Figure 6 - 潜在状態の可視化）：事前に訓練されたモデルが数独タスクで生成した潜在状態yとzをデコードし、可視化しました。結論：可視化結果は、デコードされたyが部分的に完成した数独の解答のように見えるのに対し、デコードされたzは直接理解できない抽象的な数値パターンの集合であることを明確に示しました。これは、HRMの潜在変数の再解釈に対して、直感的かつ強力な証拠を提供します。
性能と深さのトレードオフ分析（Table 3）：有効な深さを n * T_Rと定義し、TRMとHRMの性能を同様の有効深さで比較しました。結論：比較可能な任意の深さレベルで、TRMの性能は一貫してHRMよりも優れていました（例：有効深さ約48で、TRMは87.4%、HRMは61.6%）。この実験は、TRMのアーキテクチャ自体がより効率的であり、計算を最大限に活用できることを証明しています。

論文タイトル：Less is More: Recursive Reasoning with Tiny Networks