著名なAI科学者であるデビッド・シルバー氏とリチャード・サットン氏は、新しい論文で、人工知能が「経験の時代」という新たなフェーズに入ろうとしていると主張しています。これは、AIシステムが人間から提供されるデータへの依存度を減らし、世界からデータを収集し、相互作用することによって自己改善を進める段階です。
この論文は概念的で将来を見据えたものですが、将来のAIエージェントやシステムと共に、またはそのために構築を目指す企業にとっては直接的な意味合いを持ちます。
シルバー氏もサットン氏も、AIの未来について正確な予測をしてきた経験豊富な科学者です。その予測の妥当性は、今日の最も先進的なAIシステムに直接見られます。2019年、強化学習のパイオニアであるサットン氏は、有名なエッセイ「苦い教訓(The Bitter Lesson)」を書きました。その中で彼は、AIにおける長期的な進歩は、複雑な人間由来のドメイン知識を取り入れることに主に頼るのではなく、大規模な計算と汎用的な探索および学習手法を活用することから一貫して生まれると主張しています。
DeepMindのシニアサイエンティストであるデビッド・シルバー氏は、AlphaGo、AlphaZero、AlphaStarに主要な貢献をしました。これらはすべて深層強化学習における重要な成果です。彼はまた、2021年の論文の共著者でもあり、強化学習と適切に設計された報酬信号があれば、非常に高度なAIシステムを作成するのに十分であると主張しました。
最も先進的な大規模言語モデル(LLM)は、これら二つの概念を活用しています。GPT-3以降、AIシーンを席巻している新しいLLMの波は、主に計算能力とデータをスケーリングして膨大な知識を内化することに依存しています。DeepSeek-R1のような最近の推論モデルの波は、強化学習と単純な報酬信号が複雑な推論スキルを学習するのに十分であることを示しています。
経験の時代とは?
「経験の時代」は、サットン氏とシルバー氏が近年議論してきた同じ概念に基づいており、AIの最新の進歩に適応させています。著者たちは、「人間データからの教師あり学習のみによって推進される進歩のペースが明らかに鈍化しており、新しいアプローチの必要性を示唆している」と主張しています。
そして、そのアプローチには、エージェントが強くなるにつれて継続的に改善される形で生成されなければならない新しいデータソースが必要です。「これは、エージェントが自身の経験から継続的に学習することを可能にすることで達成できます。すなわち、エージェントがその環境と相互作用することによって生成されるデータです」とサットン氏とシルバー氏は書いています。彼らは、最終的に「経験は改善の主要な媒体となり、今日のシステムで使用される人間データの規模を最終的に dwarfing する」と主張しています。
著者たちによると、自身の経験的データからの学習に加えて、将来のAIシステムは4つの次元で「人間中心のAIシステムの限界を打破する」としています。
ストリーム:AIエージェントは、ばらばらのエピソードを跨いで作業するのではなく、「人間のように、長い時間スケールにわたって進行する独自の経験のストリームを持つ」ことになります。これにより、エージェントは長期的な目標を計画し、時間とともに新しい行動パターンに適応できるようになります。これは、非常に長いコンテキストウィンドウを持ち、ユーザーインタラクションに基づいて継続的に更新されるメモリアーキテクチャを持つAIシステムに見られます。
アクションと観察:経験の時代のエージェントは、人間が特権的に行うアクションや観察に焦点を当てるのではなく、現実世界で自律的に行動します。これの例は、コンピュータの使用やModel Context Protocol(MCP)などのツールを介して外部アプリケーションやリソースと相互作用できるエージェントシステムです。
報酬:現在の強化学習システムは、ほとんどが人間によって設計された報酬関数に依存しています。将来、AIエージェントは時間とともに適応し、エージェントが世界での行動と観察から収集した現実世界の信号とユーザーの好みを一致させる独自の動的な報酬関数を設計できるようになるはずです。NvidiaのDrEurekaのようなシステムでは、自己設計型報酬の初期バージョンが見られます。
計画と推論:現在の推論モデルは、人間の思考プロセスを模倣するように設計されています。著者たちは、「思考のより効率的なメカニズムは確かに存在し、たとえば記号的、分散的、連続的、または微分可能な計算を利用する非人間言語を使用する可能性があります」と主張しています。AIエージェントは世界と関わり、データを観察して使用して推論プロセスを検証および更新し、世界モデルを開発する必要があります。
強化学習を通じてAIエージェントが環境に適応するというアイデアは新しいものではありません。しかし、以前はこれらのエージェントはボードゲームのような非常に制約された環境に限定されていました。今日では、複雑な環境(例:AIによるコンピュータの使用)と相互作用できるエージェントと強化学習の進歩がこれらの制限を克服し、経験の時代への移行をもたらすでしょう。
企業にとってそれは何を意味するのか?
サットン氏とシルバー氏の論文には、現実世界のアプリケーションにとって重要な意味を持つ観察が隠されています。「エージェントは、ユーザーインターフェイスなどの『人間フレンドリーな』アクションと観察を使用することができ、これはユーザーとのコミュニケーションと協力を自然に促進します。エージェントは、コードを実行し、APIを呼び出す『機械フレンドリーな』アクションも実行でき、エージェントがその目標のために自律的に行動することを可能にします。」
経験の時代は、開発者がアプリケーションを人間だけでなく、AIエージェントも考慮して構築しなければならないことを意味します。機械フレンドリーなアクションには、MCPなどのインターフェイスを介して直接または容易にアクセスできる安全でアクセス可能なAPIの構築が必要です。これはまた、GoogleのAgent2Agentのようなプロトコルを介して発見可能にすることができるエージェントの作成も意味します。また、アクションと観察の両方へのアクセスを提供するようにAPIとエージェントインターフェイスを設計する必要があります。これにより、エージェントはアプリケーションとの相互作用から徐々に推論し、学習できるようになります。
サットン氏とシルバー氏が提示するビジョンが現実になれば、まもなく何十億ものエージェントがウェブ上(そして物理世界でも間もなく)を徘徊してタスクを達成するようになるでしょう。彼らの行動とニーズは人間ユーザーや開発者とは大きく異なり、アプリケーションと対話する上でエージェントフレンドリーな方法を持つことで、将来のAIシステムを活用する能力(およびそれらが引き起こす可能性のある害を防ぐ能力)が向上します。
「RLの基盤に基づいて構築し、そのコア原則をこの新しい時代の課題に適応させることで、自律学習の潜在能力を最大限に引き出し、真に超人間的な知能への道を開くことができます」とサットン氏とシルバー氏は書いています。
DeepMindはこの記事に対する追加コメントを控えた。