階層的推論モデル Hierarchical Reasoning Model

要旨

複雑な目標指向型行動のシーケンスを設計し実行するプロセスである推論は、人工知能における重要な課題であり続けています。現在のTransformerベースの大規模言語モデル（LLM）は主に思考の連鎖（CoT）技術を採用していますが、これらはタスク分解の脆弱性、膨大なデータ要件、および高いレイテンシという問題に直面しています。人間の脳における階層的および多時間スケール処理に触発され、我々は階層的推論モデル（HRM）を提案します。これは、トレーニングの安定性と効率を維持しながら、顕著な計算深度を達成できる新しいリカレントアーキテクチャです。HRMは、2つの相互依存するリカレントモジュールを通じて、中間プロセスへの明示的な監視なしに、単一の順方向パスで順次推論タスクを実行します。一つは緩慢で抽象的な計画を担当する高レベルモジュール、もう一つは高速で詳細な計算を処理する低レベルモジュールです。HRMは2700万個のパラメータしか持たず、わずか1000個の訓練サンプルしか使用しないにもかかわらず、複雑な推論タスクで優れた性能を達成しました。このモデルは事前学習やCoTデータを必要とせず、複雑な数独パズルや大規模な迷路における最適経路探索など、挑戦的なタスクでほぼ完璧な性能を実現しました。さらに、HRMは、より大幅に長いコンテキストウィンドウを持つ大規模モデルを「抽象化と推論のコーパス（ARC）」で上回りました。ARCは人工汎用知能能力を測る重要なベンチマークです。これらの結果は、HRMが汎用計算および汎用推論システムへの変革的な進歩として持つ可能性を強調しています。

1 はじめに

深層学習は、その名の通り、より強力な表現能力と優れた性能を得るために、より多くの層を積み重ねるという理念から生まれました。しかし、大規模言語モデルが著しい成功を収めているにもかかわらず、その核となるアーキテクチャは驚くほど浅いままです。これは、LLMに最も期待される能力である推論に根本的な制約を課しています。標準的なTransformerの固定された深さは、それをAC0やTC0といった計算複雑性クラスに位置づけ、多項式時間を要する問題を解決することを不可能にしています。LLMはチューリング完全性を持たないため、少なくとも純粋なエンドツーエンド方式では、綿密な計画や記号操作タスクを実行するために不可欠な複雑なアルゴリズム推論を行うことができません。例えば、数独タスクにおける我々の結果は、Transformerモデルの深さを増やすことで性能が向上することを示していますが、非常に深いモデルを使用しても、性能は依然として最適にはほど遠く、現在のLLMの拡張パラダイムにおける限界の推測を裏付けています。

大規模言語モデルの分野における推論に関する文献は、主に思考の連鎖（Chain-of-Thought, CoT）プロンプト技術に依拠しています。CoTは、複雑なタスクをより単純な中間ステップに分解し、浅いモデルを使用してテキストを一つずつ生成することで、推論プロセスをトークンレベルの言語表現として外部化します。しかし、推論のためのCoTは、満足のいく解決策ではなく、単なる一時的な手段に過ぎません。それは、脆弱で人間によって定義されたタスク分解に依存しており、いずれかのステップでのエラーや順序の誤りが、推論プロセス全体を失敗させる可能性があります。このような明示的な言語ステップへの依存は、推論をトークンレベルのパターンに縛り付けます。その結果、CoT推論はしばしば大量の訓練データを必要とし、複雑な推論タスクでは膨大な数のトークンを生成するため、応答が遅くなります。我々は、これらのデータ要件を最小限に抑えるための、より効率的な方法が必要です。

この目的のために、我々は「潜在推論」（latent reasoning）、すなわちモデルがその内部隠れ状態空間内で計算を行うことを探求します。これは、言語が人間のコミュニケーションの道具であり、思考そのものの媒体ではないという認知的な見解と一致しています。脳は潜在空間で驚くべき効率性をもって長く一貫した推論連鎖を維持し、それを絶えず言語に翻訳し直す必要はありません。しかし、潜在推論の能力は依然として、モデルの実効計算深度によって根本的に制限されています。勾配消失問題のため、単純に層を積み重ねることは極めて困難であり、これは訓練の安定性と有効性に深刻な影響を与えます。シーケンスタスクを処理するための自然な代替手段であるリカレントアーキテクチャは、しばしば早期収束の問題を抱え、その後の計算ステップが無効になることがあり、生物学的に非現実的で計算コストが高く、メモリ消費の大きい「時間を通じた誤差逆伝播」（Backpropagation Through Time, BPTT）に依存して訓練されます。

人間の脳は、現在の人工モデルに欠けている効果的な計算深度を実現するための、非常に示唆に富む青写真を提供しています。脳は、異なる時間スケールで機能する皮質領域間で計算を階層的に組織化し、深い多段階推論を可能にします。リカレントなフィードバックループは、内部表現を継続的に最適化し、遅い高レベル領域が高速な低レベル回路にタスクを実行するよう指示することを可能にし、グローバルな一貫性を維持しつつ階層的な処理を実現します。注目すべきは、脳がこの深さを実現しながら、時間を通じた誤差逆伝播による従来のリカレントネットワークに関連する高い信用割り当てコストを回避している点です。

このような階層的かつ多時間スケールの生物学的構造に触発され、私たちは階層的推論モデル（Hierarchical Reasoning Model, HRM）を提案します。HRMは、実効計算深度を著しく向上させることを目指しています。このモデルは、抽象的で熟慮的な推論を行う高レベル（H）モジュールと、高速で詳細な計算を処理する低レベル（L）モジュールという、2つの結合されたリカレントモジュールから構成されています。この構造は、私たちが「階層的収束」（hierarchical convergence）と呼ぶプロセスを通じて、標準的なリカレントモデルの急速な収束問題を回避します。低レベルモジュールは迅速に更新され、複数の計算ステップを実行して局所的な平衡状態に達した後、高レベルモジュールが一歩前進します。このとき、低レベルモジュールはリセットされ、新たな計算段階に入り、別の局所的な平衡状態へと収束していきます。

さらに、我々はHRMを訓練するための単一ステップ勾配近似法を提案します。この方法は訓練効率を向上させ、BPTTの必要性を排除します。この設計は、バックプロパゲーション全体で一定のメモリ使用量（BPTTのO(T)に対しO(1)、Tは時間ステップ数）を維持するため、良好なスケーラビリティを持ち、生物学的メカニズムとより一致します。

強化された実効深度により、HRMは広範囲な探索とバックトラッキングを必要とするタスクで優れた性能を発揮します。わずか1000個の入出力サンプルを使用し、事前学習や思考の連鎖による教師なしで、HRMは最先端のLLMには不可能であった問題を解くことを学習しました。例えば、複雑な数独パズル（Sudoku-Extreme Full）や30x30迷路における最適経路探索タスクにおいて、HRMはほぼ完璧な精度を達成しましたが、最先端のCoT手法は完全に失敗しました（精度0%）。帰納的推論のベンチマークである「抽象化と推論のコーパス」（Abstraction and Reasoning Corpus, ARC）AGIチャレンジにおいて、HRMは公式データセット（約1000サンプル）のみを使用し、2700万個のパラメータと30x30グリッド（900トークン）のコンテキストでゼロから学習したにもかかわらず、40.3%のスコアを達成しました。これは、はるかに大きなパラメータ規模とコンテキスト長を持つCoTベースの主要モデル（o3-mini-highの34.5%やClaude 3.7の8Kコンテキストで21.2%）を大幅に上回ります（図1参照）。この成果は、汎用計算能力を持つ次世代のAI推論システム開発への非常に有望な方向性を示しています。

2 階層的推論モデル

私たちは、脳内で観察される神経計算の3つの基本原則に触発されて設計された階層的推論モデル（HRM）を提案します。

階層的処理：脳は皮質領域の階層構造で情報を処理します。高レベル領域はより長い時間スケールで情報を統合し、抽象的な表現を形成する一方、低レベル領域はより即時的で詳細な感覚・運動処理を担当します。

時間的分離：脳内のこれらの階層は、神経リズム（例：4～8Hzの遅いθ波、30～100Hzの速いγ波）に反映されるように、異なる固有の時間スケールで動作します。この時間的分離により、高レベル領域は安定して低レベル領域の高速計算を導くことができます。

リカレント接続：脳は広範なリカレント接続を持っています。これらのフィードバックループは、内部表現の反復的な最適化をサポートし、その結果、より正確で文脈に敏感な結果が得られますが、追加の処理時間を要します。さらに、脳は、時間を通じた誤差逆伝播（BPTT）に関連する扱いにくい深層信用割り当て問題を大部分回避しています。

HRMは、我々が「階層的収束」と呼ぶプロセスを通じて、この早期収束に対抗するために明示的に設計されています。各サイクルにおいて、低レベルモジュール（Lモジュール、リカレントニューラルネットワークRNN）は安定して局所的な平衡状態に収束します。しかし、この平衡状態は、そのサイクルにおいて高レベルモジュールによって提供される高レベル状態 zH に依存します。T個の時間ステップを完了した後、高レベルモジュール（Hモジュール）は、このサブ計算の結果（すなわち低レベルモジュールの最終状態 zL）を統合し、自身の状態更新を実行します。この zH の更新は、低レベルモジュールにとって全く新しいコンテキスト環境を確立し、本質的にその計算パスを「再起動」させ、それによって別の局所的な平衡状態への新たな収束段階を開始します。

このプロセスにより、HRMは一連の異なるが安定したネストされた計算を実行できます。高レベルモジュールは全体的な問題解決戦略を導き、一方、低レベルモジュールは各ステップに必要な集中的な探索や微細な最適化を実行します。標準のRNNがT回の反復内で収束に近づく可能性があるにもかかわらず、階層的収束メカニズムの実効計算深度はN×Tステップに達します。図3の実験結果が示すように、このメカニズムにより、HRMは複数の時間ステップにわたって高い計算活動度（順方向残差）を維持できますが、標準のRNNの活動度は急速に減衰します。同時に、安定した収束も実現します。これにより、図2に示すように、HRMは任意の計算深度でより優れた性能を発揮します。

勾配近似：リカレントモデルは通常、時間を通じた誤差逆伝播（BPTT）を用いて勾配を計算します。しかし、BPTTは順方向伝播中のすべての隠れ状態を保存し、逆方向伝播中にそれらを勾配と結合する必要があり、これはO(T)のメモリ（Tは時間ステップ数）を必要とします。この莫大なメモリオーバーヘッドは、特に大規模なネットワークではGPU利用率の低下につながるため、バッチサイズを小さくせざるを得ません。さらに、時間的に完全な履歴軌跡を保持することは生物学的に不可能であるため、脳はおそらくBPTTを実装していません。

幸いなことに、リカレントニューラルネットワークが固定点に収束する場合、その平衡点での単一ステップの逆伝播によって、状態シーケンスの展開を避けることができます。さらに、このメカニズムは、局部的な学習則のみを通じて脳内で実現される可能性があります。この発見に基づき、我々はHRMの勾配に対する単一ステップ近似法を提案します。これは、各モジュールの最終状態の勾配のみを使用し、他の状態を定数として扱います。したがって、勾配の伝播経路は次のようになります。

上記の方法は、O(1) のメモリしか必要とせず、時間的な展開も不要であり、PyTorchなどの自動微分フレームワークで簡単に実装できます（図4参照）。各モジュールは、その最新の局所的なシナプス活動を介してエラーを逆伝播するだけでよいため、この方法は、皮質における信用割り当てが、グローバルな活動パターンの再現ではなく、短距離で時間的に局所的なメカニズムに依存するという見解と高度に一致しています。

ここで、学習プロセスの損失関数を定義します。各監視セグメントの全体的な損失は、Qヘッド損失とシーケンスツーシーケンス損失を組み合わせたものです。

上記の損失関数を最小化することで、正確な予測とほぼ最適な停止決定が可能になります。「停止」アクションの選択は監視ループを終了させます。実際には、シーケンスはバッチ処理され、データローダーからの新しいサンプルでバッチ内の停止したサンプルを置き換えることで簡単に処理できます。

図5は、2つのHRMバリアント間の性能比較を示しています。1つはACTメカニズムを採用したもので、もう1つはACTのMmaxパラメータに匹敵する固定計算ステップ数を使用しています。結果は、ACTがタスクの複雑性に応じて計算リソースを適応的に調整できることを示しており、性能への影響を最小限に抑えながら、顕著な計算節約を実現しています。

推論時のスケーラビリティ効果的なニューラルネットワークモデルは、推論段階で追加の計算リソースを活用して性能を向上できるべきです。図5-(c)に示すように、HRMは計算制限パラメータMmaxを単純に増やすだけで、追加のトレーニングやネットワーク構造の変更なしに、推論時のスケーリングをシームレスに実現できます。

追加の計算リソースは、深い推論を必要とするタスクに特に有効です。数独問題（通常、長期的な計画を必要とする問題）では、HRMは強力な推論とスケーリング能力を示します。一方、ARC-AGIチャレンジタスクでは、これらの問題の解決策は通常、ほんの数回の変換で完了するため、追加の計算リソースによる性能向上は非常に限定的であることがわかりました。

ACTにおけるQ学習の安定性

ACTメカニズムの基盤となる深層Q学習は、不安定になりやすいことが知られており、通常、リプレイバッファやターゲットネットワークなどの安定化技術を採用する必要がありますが、これらは我々の設計にはありません。しかし、我々の方法は、モデル自体とそのトレーニングプロセスの本質的な特性を通じて安定性を実現しています。Galliciらの最新の理論的研究は、ネットワークパラメータが有界であり、トレーニング中に重み減衰が導入され、後続の正規化層が実装されていれば、Q学習が収束できることを示しています。我々のモデルは、RMSNorm（層正規化の派生形）とAdamW最適化器を採用したPost-Normアーキテクチャを通じてこれらの条件を満たしています。AdamWは、モデルパラメータが1/λの範囲内に留まることを保証するL∞制約付き最適化問題を解決できることが示されています。

低レベルおよび高レベルのリカレントモジュール fL と fH は、同じアーキテクチャと次元を持つエンコーダオンリーのTransformerブロックを使用して実装されています。これらのモジュールは複数の入力を受け入れ、我々はそれらを単純な要素ごとの加算によって結合していますが、より複雑な結合技術（ゲーティングメカニズムなど）が性能を向上させる可能性があり、これは将来の研究課題として残されています。本研究では、ベースラインモデルを含むすべてのTransformerブロックにおいて、Llamaアーキテクチャに基づく現代の大規模言語モデルに見られる機能強化を組み込みました。これらの改善には、ロータリー位置エンコーディング、ゲーテッドリニアユニット、RMSNorm、および線形層からのバイアス項の除去が含まれます。

さらに、HRMとリカレントTransformerモデルの両方でPost-Normアーキテクチャが実装されており、重みは切り詰められたLeCun正規分布初期化によって初期化され、同時にRMSNormにおけるスケーリングおよびバイアスパラメータは除外されています。すべてのパラメータは、線形ウォームアップを含む一定の学習率と組み合わせた、Adamのスケール不変バリアントであるAdam-atan2最適化器を使用して最適化されます。

3 結果

本節ではまず、ARC-AGI、数独、迷路の3つのベンチマークタスクを紹介し、続いてベースラインモデルとその結果の概要を述べます。図6-(a,b,c)は、AIモデルの様々な側面での推論能力を評価するために慎重に選ばれたこれらの3つのベンチマークタスクを視覚的に示しています。

3.1 ベンチマークタスク

ARC-AGIチャレンジタスク

ARC-AGIベンチマークは、帰納的推論能力を必要とするIQテストのようなパズルを通じて、一般的な流動性知能を評価します。最初のバージョンARC-AGI-1は、入出力グリッドのペアとして課題を提示し、AIシステムに少数の例から抽象的なルールを抽出し、一般化することを強制します。各タスクは、いくつかの入出力例ペア（通常2～3ペア）と1つのテスト入力を提供します。AIモデルには、正しい出力グリッドを生成する機会が2回与えられます。ARC-AGIをマスターすることが真の人工汎用知能の達成を示すと主張する者もいますが、その主な目的は、実際には現在の人工汎用知能開発プロセスにおける主要なボトルネックを明らかにすることです。実際、従来の深層学習手法や思考の連鎖（CoT）技術は、ARC-AGI-1で大きな課題に直面しています。これは主に、このタスクがモデルに全く新しいタスクへの一般化能力を要求するためです。

ARC-AGI-1で発見された限界に対処するため、ARC-AGI-2はこのベンチマークを大幅に拡張し、より包括的で綿密に最適化されたタスクセットを提供しています。これらの新しいタスクは、深層な結合推論、多段階論理、文脈依存のルール適用、および記号的抽象化能力に重点を置いています。人間による校正研究では、これらのタスクは人間にとっては困難ではあるものの達成可能であり、現在のAIシステムにとってははるかに困難であることが示されており、汎用推論能力を測るためのより明確な基準を提供しています。

数独-エクストリーム（Sudoku-Extreme）

数独は9×9の論理パズルで、各行、各列、および各3×3ブロックが数字1から9をそれぞれ1回ずつ正確に含むように求められます。モデルの予測結果がそのパズルの唯一の解と完全に一致する場合、正しいと見なされます。数独は複雑な論理構造を持つため、機械学習モデルの論理推論能力を評価するための一般的なベンチマークタスクとしてよく使用されます。

現在の研究で最も一般的に使用されている数独データセットはKaggleデータセットであり、このデータセット内のすべてのパズルは基本的な単一数字テクニックで完全に解決できます。もう一つの広く使用されているデータセットは、最小の手がかり数が17の17-clueパズルセットで、手がかりの数が非常に少ないため、一見するとより挑戦的に見えます。しかし、この認識は誤解を招くものです。なぜなら、17は数独に唯一の解があることを保証するために必要な最小の手がかり数であり、これらの手がかりは互いに高度に直交している必要があります。この直交的な配置は、皮肉なことに、多くの直接的で簡単に解決できる推論経路をもたらします。

私たちは、「数独-エクストリーム」（Sudoku-Extreme）という、より挑戦的な新しいデータセットを提案します。これは、上記の比較的簡単なデータセットと、数独コミュニティで人間のプレイヤーにとって極めて困難と認識されているパズルを統合したものです。

簡単なパズル：Kaggleデータセット、17-clueデータセット、および数独パズル分布から無作為にサンプリングされたサンプルから、合計1,149,158個のパズル。難しいパズル：Magictour 1465、Forum-Hard、Forum-Extremeのサブセットから、合計3,104,157個のパズル。

統合されたデータは厳格な90/10の訓練-テストセット分割を経ており、テストセットのパズルが訓練セットのいかなるサンプルからも同等の変換によって導き出せないように保証されています。「数独-エクストリーム」（Sudoku-Extreme）はこのデータの下位サンプリングされたサブセットであり、1000個の訓練サンプルを含みます。私たちは主要な実験（図1）でSudoku-Extremeを使用し、少量のサンプル学習シナリオに焦点を当てています。分析実験（図2、図3、図5）で収束性を保証し、過学習を制御するために、私たちは完全な訓練データ「Sudoku-Extreme-Full」を使用し、これには3,831,994個のサンプルが含まれています。

我々は、数独ソルバープログラムtdokuが必要とする探索のバックトラック回数（すなわち「推測」回数）によって、パズルの難易度を測定します。このプログラムは、命題論理を用いて推測回数を減らします。我々のSudoku-Extremeデータセットは、1パズルあたり平均22回のバックトラックを必要とし、既存のデータセットよりも顕著に高い値です。例えば、最近手作業で設計されたSudoku-Benchデータセットは、1パズルあたり平均わずか0.45回のバックトラックしか必要としません。これらのサブセットの複雑性レベルは図6-(d)に示されています。

迷路-ハード（Maze-Hard）

このタスクは30×30の迷路で最適経路を見つけることを要求し、その高い解釈可能性から、LLMを探索タスクの実行に訓練するためによく使用されます。我々はLehnertらが提案したインスタンス生成方法を採用しますが、追加のフィルタリング条件として、難易度が110を超えるインスタンスのみを保持します。ここでいう「難易度」は、最短経路の長さを定義しており、これはGPU上で実行される波面幅優先探索アルゴリズムの線形時間複雑度と一致します。経路は、有効かつ最適である場合（すなわち、開始点から終点までの最短経路である場合）にのみ正しいと見なされます。訓練セットとテストセットはそれぞれ1000サンプルを含みます。

3.2 評価の詳細

すべてのベンチマークタスクにおいて、HRMモデルはランダムな重み初期化から開始され、入出力サンプルペアを用いてシーケンス・トゥ・シーケンスのフレームワークで訓練されます。2Dの入力グリッドと出力グリッドは平坦化され、最大シーケンス長までパディングされます。最終的な性能結果は図1に示されています。注目すべきは、HRMが各タスクあたり約1000個の訓練サンプルしか使用せず、事前訓練や思考の連鎖（CoT）ラベルを必要とせずに、これらの性能レベルを達成したことです。

ARC-AGIチャレンジタスクでは、訓練セットと評価セットの両方からすべての入出力例ペアを使用します。パズルに平行移動、回転、反転、色置換などの変換を適用することでデータ拡張を行います。各タスク例の前には、そのパズルの種類を示す学習可能な特殊トークンが追加されます。テスト段階では、評価セットの各テスト入力に対して、以下の手順を実行します。（1）1000個の拡張されたバリアントを生成して解き、各バリアントの予測結果に逆拡張変換を適用して元の形式に戻します。（2）最も頻繁に現れる2つの予測結果を最終出力として選択します。すべての結果は評価セットで報告されます。

数独パズルについては、バンドと数字の置換によるデータ拡張を行いますが、迷路タスクではデータ拡張は有効にしません。どちらのタスクも推論プロセスは1回のみ実行されます。

ARC-AGIタスクにおけるCoTモデルのスコアは公式リーダーボードから得られ、数独と迷路タスクにおけるスコアは対応するAPI評価を通じて得られます。

図1では、ベースラインモデルは事前学習の有無とCoTの使用の有無に基づいて異なるグループに分けられています。「直接予測」（Direct pred）ベースラインは、「CoTを使用せず、事前学習なしの直接予測」を指し、HRMと全く同じ訓練設定ですが、モデルをTransformerアーキテクチャに置き換えたものです。興味深いことに、ARC-AGI-1タスクにおいて、「直接予測」ベースラインの性能はLiaoとGuと同等でした。彼らはこのタスクのために、ゼロから訓練され、事前学習を使用せずに、慎重に設計されたドメイン特異的な等変ネットワークを構築しました。TransformerアーキテクチャをHRMの階層的フレームワークに置き換え、ACTメカニズムを導入することで、我々の性能は2倍以上に向上しました。

Sudoku-ExtremeおよびMaze-Hardベンチマークにおいて、HRMとベースライン手法間の性能差は極めて顕著であり、ベースライン手法はこれらのタスクをほとんど解決できません。長い推論連鎖を必要とするこれらのタスクは、CoTベースの手法にとって特に困難です。HRMと同じ規模の8層Transformerを採用した「直接予測」ベースラインは、わずか1000個の訓練サンプルしか使用しない場合、これらの複雑な推論問題で完全に失敗しました。しかし、より大規模なSudoku-Extreme-Fullデータセットで訓練した場合、「直接予測」ベースラインは一部の簡単な数独パズルを解決でき、16.9%の精度を達成しました（図2参照）。Lehnertらの研究は、1億7500万個のパラメータを持つ通常のTransformerモデルが、複数の訓練ラウンドで100万個のサンプルを用いて訓練された後も、30x30迷路タスクでの性能が極めて限定的であり、pass@64評価指標を使用した場合でも精度が20%を下回ったことを示しています。

3.3 中間時間ステップの可視化

HRMは複雑な推論タスクで優れた性能を発揮しますが、興味深い問いを提起します。HRMのニューラルネットワークは実際にどのような低レベルの推論アルゴリズムを実装しているのでしょうか？この問いに答えることは、モデルの解釈可能性を高め、HRMの解空間を深く理解するために不可欠です。

迷路タスクでは、HRMは最初にいくつかの潜在的な経路を同時に探索し、その後ブロックされた経路や非効率な経路を排除し、次に解の初期輪郭を構築し、続いて複数回の洗練の反復を行います。数独タスクでは、その戦略は深さ優先探索法に似ており、モデルは潜在的な解を探索し、行き止まりに遭遇するとバックトラックするようです。ARCタスクの場合、HRMは異なるアプローチを採用し、ボードを段階的に調整し、解が見つかるまで反復的に改良します。数独（頻繁なバックトラックを伴う）とは異なり、ARCの解経路は、丘登り最適化に似た、より一貫した進行に従います。

重要なのは、モデルが異なる推論方法に適応できることを示しており、おそらく各特定のタスクに対して有効な戦略を選択していることです。これらの解戦略についてより包括的な洞察を得るためには、さらなる研究が必要です。

4 脳との対応関係

システム神経科学における重要な原則は、脳領域の機能的多様性、すなわち多様で複雑なタスクを処理する能力が、その神経表現の次元と密接に関連していることです。複雑な推論と意思決定を担当する高次の皮質領域は、多様なタスクに対処する必要があるため、より柔軟で文脈依存的な処理メカニズムが求められます。力学系においては、このような柔軟性はしばしば高次元の状態空間軌道によって達成され、より豊かな潜在的計算パターンをサポートします。この原則は、脳領域の情報処理階層における位置と、その実効次元が正の相関を示すという、観察可能な次元階層構造を形成します。この現象を定量化するために、高次元表現の実効次元を測る標準的な指標である「参加率」（Participation Ratio, PR）を考察することができます。

ここで、{λi}は神経活動軌跡の共分散行列の固有値です。直感的には、PR値が高いほど分散がより多くの次元に均等に分布していることを示し、高次元の表現に対応します。逆に、PR値が低いほど分散が少数の主成分に集中しており、よりコンパクトで低次元の構造を反映しています。

この次元階層構造は、例えばマウス皮質で観察できます。集団神経活動のPR値は、低レベル感覚領域から高レベル連合領域へと単調に増加する傾向を示し、表現の次元と機能的複雑性の相関を裏付けています（図8(a,b)参照）。

私たちは、Sudoku-Extreme-Fullデータセットで訓練後、HRMの2つのリカレントモジュールのPR値を計算し、このモデルが神経科学の原理を再現しているかどうかを検証しました。PRの計算は、複数の数独を解く神経活動軌跡から収集された神経状態に基づいて構築された共分散行列に基づいています。結果は、生物学的発見と驚くべき一致を示しています。低レベルモジュールの状態（zL）は比較的狭いサブ空間を占め、参加率は30.22でした。一方、高レベルモジュールの状態（zH）ははるかに大きなサブ空間で動作し、参加率は89.95に達しました（図8(c)参照）。さらに、図8(d)は、独立したタスク（軌跡）の数が10から100に増加すると、zHの次元が著しく増加する一方で、zLの次元は安定していることを示しています。これらの結果は、2つのモジュール間で、それぞれの機能的役割に対応する表現能力の自発的な分離が生じたことを示しています。

この階層構造が訓練プロセス中に現れる特性であり、ネットワークアーキテクチャ自体がもたらすアーティファクトではないことを検証するため、私たちは比較分析を行いました。それは、構造は同じだが未訓練で重みがランダムなネットワークを使用するものです。

我々は、全く同じHRMアーキテクチャを初期化し、ランダムな重みを割り当て、訓練を一切行わずに、訓練済みのモデルと同じタスク固有の入力をこのネットワークに処理させ、その各モジュールのPR値を測定しました。

図8(e,f)に示される結果は、顕著な対比を示しています。未訓練のネットワークでは、高レベルモジュールと低レベルモジュールは階層的な分離を示さず、両方のPR値が低く、互いにほとんど区別できませんでした。この対照分析は、複雑な推論を学習するプロセスにおいて、次元階層構造がモデルに内在する特性として現れることを検証しています。

HRMにおける高レベルと低レベルのPR比（zH / zL ≈ 2.98）は、マウス皮質で測定された比（≈ 2.25）と非常に近いです。対照的に、従来の深層ネットワークはしばしば「ニューラルコラプス」（neural collapse）現象、すなわち最終層の特徴が低次元サブ空間に収束する現象を示します。HRMはこのようなコラプスパターンを打ち破り、その高レベルモジュールで高次元表現を発展させます。これは、このような高次元表現が認知的な柔軟性に不可欠であると考えられており、複雑な推論の中心である前頭前野（PFC）などの高次脳領域の典型的な特徴であるため、非常に重要です。

この構造的類似性は、このモデルが何らかの基本的な組織原則を自律的に発見したことを示唆しています。表現を高容量で高次元のサブ空間（zH）と、より特化された低次元のサブ空間（zL）に分割することで、HRMは、生物学的システムにおいてロバストで柔軟な推論を実現するために不可欠であると考えられている基本的な組織スキームを自発的に進化させました。これは、HRMが、そのような差別化された内部構造を欠くモデルでは対処が困難な複雑で長範囲のタスクで成功を収める理由について、潜在的なメカニズム的説明を提供します。

ただし、現在の証拠は相関関係に過ぎないことを強調します。介入（例えば、高レベルモジュールの次元を制限するなど）によって因果関係を検証することは可能ですが、そのような操作は訓練プロセス自体に複雑な干渉効果をもたらす可能性があり、深層学習においては正確な解釈が困難です。したがって、この創発的な階層構造の因果的必要性は、今後の研究における重要な課題です。

5 関連研究

推論とアルゴリズム学習

人工知能における推論問題の中心的な位置付けと、それがアルゴリズムと密接に関連していることを考慮し、研究者たちは長年にわたり、訓練インスタンスからアルゴリズム学習を実現できるニューラルネットワークアーキテクチャを探求してきました。この研究方向には、ニューラルチューリングマシン（Neural Turing Machines, NTM）、微分可能なニューラルコンピュータ（Differentiable Neural Computer, DNC）、ニューラルGPU（Neural GPUs）が含まれます。これらすべてのモデルは、アルゴリズムを実行するために計算ハードウェアをシミュレートする反復的なニューラルアーキテクチャを構築し、データ訓練を通じてアルゴリズムを学習します。この分野におけるもう一つの重要な研究は、リカレントリレーショナルネットワーク（Recurrent Relational Networks, RRN）であり、これはグラフニューラルネットワークを介してグラフ構造表現上でアルゴリズムを実行します。

近年、研究者たちはアルゴリズム学習手法とTransformerベースのアーキテクチャを組み合わせています。Universal Transformerは、標準のTransformerモデルに層間のリカレントメカニズムと適応的停止メカニズムを導入することで、その能力を拡張しました。Geipingらは、リカレント構造を持つTransformerが、推論段階で訓練時よりも多くのリカレントステップに一般化できることを示しました。Shenらは、Transformerに連続的なリカレント推論トークンを追加することを提案しました。さらに、TransNARは、リカレントグラフニューラルネットワークと言語モデルを結合しています。

思考の連鎖（CoT）ベースの推論が成功を収めたことを基盤として、一連の研究では、A*などの探索アルゴリズムによって生成された推論パスを教師ありファインチューニング（SFT）のターゲットとして使用するファインチューニング手法を提案しています。

私たちはまた、より複雑な問題に対して追加の計算リソースを割り当てるための適応的停止メカニズムにも言及します。例えば、リカレントニューラルネットワークのための適応的計算時間（Adaptive Computation Time, ACT）や、そのリソース割り当てプロセスの安定性を向上させることを目的としたPonderNetなどの後続の研究があります。

HRMは、脳に触発された計算アーキテクチャを通じて、アルゴリズム学習の境界をさらに拡張し、卓越したデータ効率とモデル表現能力を実現しました。わずか1000個の訓練サンプルで、複雑かつ多様なアルゴリズムの発見に成功しました。

脳に触発された推論アーキテクチャ

脳のような推論能力を持つモデルを構築することは、ニューロモルフィックコンピューティングの分野における長年の目標でした。Spaunは典型的な例で、視覚野や前頭前野などの脳領域に対応する異なるモジュールをスパイクニューラルネットワークを使用して構築しました。この設計により、モデルは記憶想起から単純な推論パズルまで、一連の認知タスクを実行できます。しかし、その推論は人為的に設計されたアルゴリズムに依存しており、新しいタスクを学習する能力を制限する可能性があります。

もう一つの重要なモデルはTolman-Eichenbaum Machine (TEM)で、空間的・関係的記憶タスクにおける海馬-内嗅皮質系の役割に触発されています。TEMは、内側内嗅皮質細胞が構造化された知識の基盤を構築し、海馬細胞がその基盤を感覚情報と関連付けることを提案しています。このメカニズムにより、TEMは一般化能力を持ち、グリッド細胞、境界細胞、場所細胞など、様々な種類の神経細胞の出現を説明しています。

別の方法として、神経サンプリングモデル（neural sampling models）があり、これは神経信号プロセスを確率分布上の推論として扱い、ボルツマンマシンと同様のメカニズムで動作します。これらのモデルは通常、特定の推論タスクのために手動でルールを設定する必要があります。

本質的に、これまでのモデルが単純な推論問題で進歩を遂げてきたにもかかわらず、HRMは、高度な大規模言語モデルでさえ対処が困難な複雑なタスクを、事前学習やタスク固有の手動設計なしで解決するために設計されています。

階層的記憶

階層的な多時間スケール構造は、脳が記憶を処理する過程でも重要な役割を果たします。階層的シーケンスモデル（Hierarchical Sequential Models）やクロックワークRNN（Clockwork RNN）などのモデルは、異なる時間スケールで動作する複数のリカレントモジュールを使用することで、シーケンス内の長距離依存関係をより効果的に捉え、RNNにおける忘却問題を緩和します。

同様のメカニズムは、線形アテンション手法にも適用され、長いコンテキストを記憶します（議論のセクションを参照）。HRMは推論タスクに焦点を当てているため、設計を簡素化するために完全アテンションメカニズムを採用しました。階層的記憶メカニズムをHRMに導入することは、将来の有望な研究方向となる可能性があります。

6 議論

HRMのチューリング完全性

初期のニューラルアルゴリズム推論器（例えばユニバーサルTransformer）と同様に、HRMは十分なメモリと時間制限があれば、計算普遍性を持ちます。言い換えれば、任意のチューリングマシンをシミュレートできるモデルのクラスに属し、導入部で言及された標準Transformerの計算能力の限界を克服します。初期のニューラルアルゴリズム推論器は通常、リカレントニューラルネットワークの形式で訓練されたため、早期収束の問題が発生しやすく、計算とメモリコストの大きいBPTT（時間を通じた逆伝播）に依存していました。したがって、その有効計算深度は標準Transformerを依然として上回るものの、実際には制限されていました。HRMは、上記の2つの課題を解決し、適応的計算能力を備えることで、長い推論プロセスで訓練し、深さ優先探索とバックトラックを必要とする複雑なパズルを解決することを可能にし、それによって実用的な意味でのチューリング完全性により近づきます。

思考の連鎖に基づく強化学習

人間が注釈を付けた思考の連鎖（CoT）を用いたファインチューニングの他に、強化学習（RL）も広く採用されている訓練手法の一つです。しかし、最近の研究では、強化学習が主にモデル内の既存のCoTのような推論能力を活性化する役割を果たし、全く新しい推論メカニズムを発見するわけではないことが示されています。さらに、CoTを組み合わせた強化学習は、訓練が不安定でデータ効率が低いことで知られており、通常、広範な探索と綿密に設計された報酬関数を必要とします。対照的に、HRMは疎な報酬信号ではなく、密な勾配ベースの教師信号に依存しています。また、HRMは連続空間で自然に動作するため、生物学的に見てより合理的であり、推論と計画における個々のトークンの複雑性の違いに応じて、異なる計算リソースを動的に割り当てることができ、すべてのトークンを一様に扱うことを避けています。

線形アテンションメカニズム

リカレント構造は、汎用計算における可能性だけでなく、標準的なアテンションメカニズムが時間とメモリの複雑さにおいて2次的な増加の問題を抱えているため、Transformerにおけるアテンションメカニズムの代替手段としても探求されています。リカレント型の代替手段は、以前のRNNベースの言語モデルと同様に、入力トークンを順次処理し、各時間ステップで次のトークンを予測することで、より効率的なアーキテクチャ設計を実現します。

線形アテンションのいくつかのバリアント（例：Log-linear Attention）は、RNNのような状態更新メカニズムを採用しており、これは多時間スケールにわたる集約統計を伝播するものとして解釈できます。これにより、標準的な自己アテンションの2次的なメモリ増加を発生させることなく、長距離の文脈情報を保持できます。しかし、アテンションメカニズムを置き換えるだけでは、Transformerが依然として固定深度モデルであるという事実を変えることはできず、依然として思考の連鎖を補償メカニズムとして頼る必要があります。注目すべきは、線形アテンションは圧縮されたキーバリューキャッシュを介してより長いコンテキストを処理できるため、リソースが制約されたエッジデバイスへの展開に適していることです。

7 結論

本研究では、脳に触発された階層的推論モデル（Hierarchical Reasoning Model, HRM）を提案します。これは、階層構造と多時間スケール処理を通じて、訓練の安定性と効率を犠牲にすることなく、顕著な計算深度を実現するアーキテクチャです。わずか2700万個のパラメータと1000個のサンプルでの訓練で、HRMはARC、数独、複雑な迷路ナビゲーションなど、現在のLLMや思考の連鎖手法にとって大きな課題となる推論タスクを効果的に解決できます。

脳がほとんどの認知機能の実現において階層構造に大きく依存しているにもかかわらず、これらの概念は学術研究に留まることが多く、実際の応用には広く転換されていません。現在の主流の人工知能手法は依然として非階層モデルに傾倒しています。我々の研究結果は、この確立されたパラダイムに挑戦し、階層的推論モデルが現在の主流である思考の連鎖推論手法の実行可能な代替手段となり得ることを示しており、チューリング完全な汎用計算能力を備えた基礎的フレームワークへの重要な一歩を踏み出しました。

原文リンク: https://arxiv.org/abs/2506.21734

階層的推論モデル Hierarchical Reasoning Model

短いURLをシェア