CoTを環境に合わせて「進化」させる、AgileThinkerが「考えながら実行」を実現｜清華大学最新研究

高速道路で初めて運転する時と同じように、このような高圧な状況下で、私たちの脳は驚くべき能力を発揮します。「車線変更の計画」という複雑なタスクのために、現在の「反応」タスクを「一時停止」することはありません。もちろん、現在の自動運転は別として、30秒間目を閉じて考えて車を自動運転させることもありません。むしろ、反応（速度制御、車線逸脱防止）を維持しつつ、並行して計画（車線変更のタイミングを探す）を行います。

私たちの脳は、「速い思考」と「遅い思考」の間でシームレスに切り替え、融合しています。

しかし、現在のほとんどのAIエージェントは、「ターンベース」の仮定の下で動作しています。環境が一時停止し、AIが思考（Chain-of-Thought）し、AIが行動し、その後環境が一歩進みます。

このような方法が悪いわけではありませんが、このような静的なシナリオは現実世界ではめったに見られません。現実世界はほとんどが動的で、並行して進行し、人を待ってくれません。自動運転AIが障害物を回避する方法を計算している間に、新たな歩行者が侵入してくるかもしれません。ゲームAIが壮大な戦略を計画している間に、敵の奇襲攻撃がすでに目前に迫っているかもしれません。

清華大学、スタンフォード大学、ジョージア工科大学の研究者たちは、エージェントが「論理性」（複雑な計画を立てられる）と「即時性」（迅速に反応できる）の両方を同時に備える必要があると考えています。

この目的のため、彼らの研究は2つの大きな貢献をしました。

新しい問題とベンチマークの提案：「リアルタイム推論」（Real-Time Reasoning）問題を定義し、Real-Time Reasoning Gymと呼ばれる新しい評価環境を作成しました。
新しいエージェントアーキテクチャの提案：「深い思考」と「迅速な反応」を巧みにバランスさせるAgileThinkerという新しいエージェントを設計しました。

2つのパラダイムの苦境：「反応」の近視眼と「計画」の鈍重さ

AgileThinkerの巧妙さを理解するためには、まず現在のAIエージェント設計の2つの主要なパラダイムと、それぞれの「アキレスの腱」を理解する必要があります。

パラダイム1：反応型エージェント（Reactive Agents）—— 敏捷だが近視眼的な「実行者」

反応型エージェントは、現在最も一般的なエージェント設計の一つです。その核となる考え方は「天下の武術は速さに尽きる」です。

動作モード：これらのエージェントは、各決定のための計算リソース（例：思考時間や計算量）が厳しく制限されています。環境の各「ティック」（タイムステップ）内で、迅速に観察し、考え、反応する必要があります。
利点：応答速度が非常に速く、環境の微細な変化にも追随でき、意思決定の「即時性」を確保します。迅速な操作が求められるタスクでは、優れた性能を発揮します。
欠点：思考時間が極めて限られているため、深く長期的な計画を立てることができません。これにより、極めて「近視眼的」となり、目先の利益のために長期的な困難に陥ることがよくあります。

論文は、この近視眼の致命的な結果を鮮やかな事例で示しています。シミュレーションされた「ヘビゲーム」では、反応型エージェントはすぐそばの餌を見ると、ためらうことなく突進します。しかし、この一見単純な行動が、数ステップ後に自身を完全に壁際に閉じ込めてしまい、最終的にゲームオーバーになることを全く予測できませんでした。目先の報酬は得ましたが、将来全体を失ったのです。

パラダイム2：計画型エージェント（Planning Agents）—— 深謀遠慮だが鈍重な「戦略家」

反応型エージェントとは対照的に、計画型エージェントは「帷幄の中に策を巡らし、千里の彼方に勝利を決する」ことを追求します。

動作モード：これらのエージェントは、複雑な推論と計算に多大な時間を費やすことが許されます。現在の観測された環境状態に基づいて、詳細で複数のステップにわたる行動計画を策定し、その後順次実行します。
利点：十分な思考時間があるため、高品質で先見性のある複雑な戦略を立てることができ、深い思考が必要な静的な問題では無敵です。
欠点：最大の欠点は「鈍重さ」です。完璧な計画を立てるのに多大な時間を費やした頃には、現実世界はすでに様変わりしています。彼らが実行する計画は、すでに古くなった「歴史のスナップショット」に基づいており、動的な環境ではしばしば壊滅的な結果を招きます。

論文は同様に、計画型エージェントの窮状を示す例を用いています。「高速道路」ゲームでは、計画型エージェントはステップ1で道路状況を観察し、完璧な通過計画を深く考え始めます。しかし、その思考中にゲーム世界は進行し続け、車は絶えず移動しています。ステップ3でようやく思考を終え、「完璧な計画」を実行し始めたとき、車がすでに位置を変えていることに全く気づかず、結果的に計画にはなかった危険に衝突してしまいます。

これら2つのパラダイムは、学業に偏りのある2人の学生のようです。一方は反応が速いが頭が回らず、もう一方は博識だが行動が遅い。複雑な現実世界では、どちらか一方だけでは生き残ることはできません。

AgileThinker：「速い思考」と「遅い思考」が出会うとき

上記の困難に直面し、研究者たちはノーベル経済学賞受賞者ダニエル・カーネマンの「二重システム理論」（人間は速く直感的な「システム1」と遅く合理的な「システム2」を持っているという理論）からインスピレーションを得て、AgileThinkerフレームワークを設計しました。

1. 計画スレッド (Planning Thread, 遅い思考の「システム2」)

役割：これは深謀遠慮の「戦略家」です。強力な大規模言語モデル（論文ではDeepSeek-R1を使用）を実行し、そのタスクは継続的な長期戦略計画を立てることです。
動作方法：このスレッドは一度起動されると、推論を継続し、複数のステップにわたるマクロな行動計画を生成します。即座の反応を追求するのではなく、「最終的にどこへ行くべきか」そして「最適な経路は何か」を考えることに専念します。長期目標に焦点を当てているため、その多くの思考結果（例えば、「前方の交差点は危険なので迂回すべきだ」）は、比較的長い期間にわたって価値があります。

2. 反応スレッド (Reactive Thread, 速い思考の「システム1」)

役割：これは行動が敏捷な「実行者」です。比較的軽量な言語モデル（論文ではDeepSeek-V3を使用）を実行し、そのタスクは厳密な時間制限内で、最新の環境状態に基づいて即座に意思決定を行うことです。
動作方法：環境の各タイムステップが終了しようとするときに、このスレッドが活性化されます。最新の環境観測情報を取得し、迅速に「今何をすべきか」を決定します。

3. AgileThinkerの「秘密兵器」：ストリーミング思考の共有

単に2つのスレッドが独立して動作するだけでは、それは単なる組み合わせに過ぎません。AgileThinkerの真に革命的な点は、それらの間の協調メカニズムにあります。

反応スレッドは意思決定を行う際に、計画スレッドが現在進行中の、たとえ未完成であっても「推論トレース」（Reasoning Trace）をいつでも「覗き見」して参照することができます。

これは、経験豊富な指揮官（反応スレッド）がテンポの速い戦闘を指揮しているようなものです。彼の背後には参謀部（計画スレッド）があり、常にサンドテーブル上で様々な長期戦略を推測しています。指揮官は参謀部が完全で完璧な最終報告書を出すのを待つ必要はありません。いつでもサンドテーブルをちらっと見て、参謀たちが議論している重要な戦略的意図（例えば、「敵の弱点は側面にある」）を把握し、この「半製品」の洞察を現在の戦術的決定に直ちに組み込み、部隊に側面への機動を命じることができます。

このメカニズムの利点は計り知れません。

戦略と戦術の両立：反応スレッドの決定は、もはや無作為な「思いつき」ではなく、長期戦略の「指導」を受けています。目の前の緊急事態に対応できるだけでなく、長期的な戦略目標から逸脱することもありません。
極めて高い効率：計画スレッドが長い思考を終えるのを待つ必要がないため、計画型エージェントの致命的な欠点である「鈍重さ」を解決します。計画プロセスにおけるあらゆる価値ある中間生成物を活用します。

仮想戦場にて：AgileThinkerはいかにして競合相手を圧倒したか

AgileThinkerの真の能力を検証するため、研究者たちはReal-Time Reasoning Gymという新しいテストプラットフォームを作成しました。このプラットフォームが従来のAIジム（Gym）と大きく異なるのは、「時間的プレッシャー」と「認知的負荷」という2つの変数を導入し、現実世界の複雑さをシミュレートしている点です。

時間的プレッシャー（Time Pressure）：環境がどれだけ速く更新されるか。プレッシャーが高いほど、AIが思考に使える時間は短くなります。
認知的負荷（Cognitive Load）：タスク自体の難易度。負荷が高いほど、タスクは複雑になり、深い思考が必要になります。

研究者たちはAgileThinkerを、従来の反応型エージェントや計画型エージェントと、この過酷な仮想戦場で直接対決させました。実験結果は衝撃的なものでした。

上のグラフから、以下のことが明確に読み取れます。

計画型エージェント（R1シリーズ）は、時間的プレッシャーが低い場合（横軸の右側）は優れた性能を発揮しますが、時間的プレッシャーが増大する（横軸が左に移動する）につれて、その性能は急激に低下し、ほぼゼロになります。これは、思考する時間がないためです。
反応型エージェント（青い四角）の性能は時間的プレッシャーの影響を受けませんが、そのスコアは常に低いレベルにとどまります。これは、計画能力が不足しており、より複雑なタスクに対応できないためです。
AgileThinker（緑の星）は驚くべき堅牢性を示しました。低い時間的プレッシャー下では計画型エージェントに匹敵するか、それを超えるだけでなく、より重要なことに、高い時間的プレッシャー下でも非常に高い性能レベルを維持し、他のすべての競合相手をはるかに凌駕しました。

タスクの難易度（認知的負荷）と時間的プレッシャーが増加するにつれて、AgileThinkerの優位性はますます大きくなりました。これは、「速い思考と遅い思考」の組み合わせこそが、複雑で動的な世界に対処する正しい答えであることを十分に証明しています。

論文のケーススタディは、AgileThinkerの勝利の道を再び直感的に説明しています。ヘビゲームでは：

反応型エージェント：最も近い餌を見て突進し、その後閉じ込められました。
計画型エージェント：数ステップ前の古い状態に基づいてまだ考えており、結果として誤ったデフォルトの行動を実行しました。しかし興味深いことに、その「思考プロセス」は、最も近い餌を直接食べるのが罠であることにすでに気づいていました。
AgileThinker：その反応スレッドは、計画スレッドのこの「懸念」を「見て」、目の前の誘惑を断固として諦め、より安全で長期的な経路を選んで別の餌を食べに行き、最終的に罠を回避することに成功しました。

「静的思考」に別れを告げ、「デュアルコア脳」を受け入れる

この画期的な研究は、実用的で信頼性の高いAIシステム構築に取り組むすべてのエンジニアと研究者にとって、極めて重要な実践的意義を持っています。

1. テスト環境を見直す：もし現実世界で動作する必要があるAIアプリケーション（ロボット、自動運転、金融取引、リアルタイム対話型ゲームなど）を開発しているなら、「静的環境」の罠に必ず警戒してください。静的環境で完璧な性能を発揮するAIでも、動的な世界では脆いかもしれません。この論文の研究者たちのように、現実の時間的プレッシャーをシミュレートできるテストプラットフォームを構築する必要があります。

2. 「力技」の限界：単にモデルの規模を拡大し、思考時間を増やす（すなわち、計画型エージェントの考え方）だけでは、すべての問題を解決できません。時間制約のあるアプリケーションでは、「考えすぎ」は「考えられない」ことと同じくらい致命的です。

3. 「デュアルコアアーキテクチャ」が未来の方向性：AgileThinkerは、反応速度と思考の深さのバランスを取ることができるエージェントを構築するための具体的で実行可能な青写真を提供します。この「計画者＋実行者」が並行して動作するデュアルシステムアーキテクチャは、将来の高度なAIエージェントの標準構成となる可能性が高いです。

4. 「結果」だけでなく「プロセス」に注目する：AgileThinkerの成功の鍵は、計画スレッドの「中間思考プロセス」を活用したことにあります。これは、大規模言語モデルの価値は最終的な回答だけでなく、その推論連鎖（Chain-of-Thought）自体が豊富な鉱山であることを私たちに示唆しています。これらの「プロセス的知識」を効果的に抽出し、活用する方法は、深く探求する価値のある方向性です。

最後に：「ターンベース」から「リアルタイム戦略」へ

長らく、人工知能の発展はある意味で「ターンベース」の論理に従ってきました。まるでチェスゲームのように、一歩ずつ計算し、世界が静かに待つ。しかし、現実世界は壮大な「リアルタイム戦略ゲーム」であり、戦争の霧が至る所にあり、機会と危険は瞬時に過ぎ去り、一時停止ボタンもなく、セーブデータからやり直すこともできません。

この研究は、AIエージェントが「ターンベース」の時代から「リアルタイム戦略」の時代へと移行していることを告げる号令のようです。それは現在の道のりのボトルネックを冷静に指摘し、エレガントで強力なAgileThinkerフレームワークによって、私たちの前途を照らしてくれました。