最近、GoogleはAIエージェントに関する76ページのホワイトペーパーを発表しました!
エージェントは環境を感知し、ツールを使用して戦略的に行動を取り、特定の目標を達成します。
その核心原理は、推論能力、論理的思考、および外部情報を取得する能力を統合し、基礎モデルでは達成が難しいタスクを完了させ、より複雑な意思決定を行うことです。
これらのエージェントは自律的な実行能力を備えており、目標を追求し、その後の行動を積極的に計画し、明示的な指示なしに行動できます。
参考リンク:https://www.kaggle.com/whitepaper-agent-companion
ホワイトペーパーでは、エージェントの評価方法について深く掘り下げ、Googleのエージェント製品の実際の応用状況を紹介しています。
生成AIの開発に携わったことのある人なら誰でも知っていますが、アイデアから概念実証段階に進むのは難しくありませんが、最終的な成果の高品質を保証し、それを実際の生産に投入するのはそれほど簡単ではありません。
エージェントを生産環境に展開する際には、品質と信頼性が最大の問題となります。Agent Operations(AgentOps)プロセスは、エージェント構築プロセスを最適化するための有効なソリューションです。
エージェントオペレーション
過去2年間で、生成AI(GenAI)は巨大な変革を遂げ、企業顧客はソリューションを実際のビジネスニーズにどのように真に応用できるかについてますます関心を寄せています。
エージェントとオペレーション(AgentOps)は、生成AIオペレーションの一分野であり、エージェントをより効率的に実行させることに重点を置いています。
AgentOpsには、内部および外部ツールの管理、エージェントのコアプロンプト(目標、プロファイル、操作指示など)の設定とオーケストレーション、メモリ機能の実装、タスク分解など、いくつかの重要なコンポーネントが追加されています。
開発オペレーション(DevOps)は、技術オペレーションシステム全体の基盤です。
モデルアプリケーション開発は、DevOpsの理念と手法をある程度継承しており、機械学習オペレーション(MLOps)は、モデルの特性に合わせてDevOpsを基盤として発展してきたものです。
オペレーションには、バージョン管理、継続的インテグレーション/継続的デリバリー(CI/CD)による自動化された展開、テスト、ログ記録、セキュリティ保証、およびメトリック測定能力が不可欠です。
各システムは通常、メトリックに基づいて最適化されます。システムの稼働状況、評価結果、ビジネスメトリックを測定し、自動化されたプロセスを通じてより包括的なメトリックを取得し、システムパフォーマンスを段階的に向上させます。
「A/Bテスト」「機械学習オペレーション」「メトリック駆動開発」とどのように呼ばれても、本質的には同じ理念に基づいており、AgentOpsでもこれらの原則に従います。
ユーザーフィードバックも無視できない指標です。
エージェントやタスク実行のプロセス中に、簡単なフィードバックフォームがあれば、エージェントがどの部分でうまく機能しているか、どの部分で改善が必要かを理解するのに役立ちます。
これらのフィードバックは、一般のユーザーだけでなく、企業従業員、品質検査担当者、または関連分野の専門家から来る場合もあります。
エージェント評価
概念実証段階のエージェントを、真に生産で使用可能な製品に変えるためには、強力な自動化評価フレームワークが不可欠です。
エージェント能力の評価
特定のAIエージェントの応用シナリオを評価する前に、いくつかの公開されているベンチマークテストや技術報告書を参照することができます。
モデルの性能、幻覚の発生の有無、ツール呼び出し能力、計画能力など、多くの基本的な能力について公開ベンチマークテストがあります。
たとえば、Berkeley Function Calling Leaderboard (BFCL)や τ-benchなどのベンチマークテストは、エージェントのツール呼び出し能力を示すことができます。
PlanBenchベンチマークテストは、複数のドメインにおける計画能力と推論能力の評価に特化しています。
ツール呼び出しと計画は、エージェントの能力の一部にすぎません。エージェントの行動は、使用するLLMおよびその他のコンポーネントの影響を受けます。
エージェントとユーザーのインタラクション方法は、従来の対話設計システムやワークフローシステムにも手がかりがあり、これらのシステムの評価指標や方法を参考にして、エージェントのパフォーマンスを測定できます。
AgentBenchのような包括的なAIエージェントベンチマークテストは、様々なシナリオでエージェントを包括的に評価し、入力から出力までの全体的な性能をテストします。
現在、多くの企業や組織は特定の応用シナリオ向けに、Adyenのデータ分析リーダーボードDBAStepのような専門の公開ベンチマークテストを設立しています。
ほとんどのベンチマーク報告書では、エージェントの一般的な失敗パターンについて議論しており、これは応用シナリオに適した評価フレームワークを構築するためのアイデアを提供します。
公開評価を参照するだけでなく、様々な異なるシナリオでエージェントの行動をテストすることも必要です。
ユーザーとエージェントのインタラクションプロセスをシミュレーションし、その応答を観察することができます。提供される最終的な答えだけでなく、答えに到達したプロセス、つまり行動軌跡にも注目して評価することが重要です。
ソフトウェアエンジニアは、エージェント評価とコードの自動テストを結びつけることができます。コードテストにおいて、自動テストは時間を節約し、開発者にソフトウェアの品質に対するより大きな自信を与えます。
エージェントにとっても、自動評価は同様です。
評価データセットを慎重に準備することは非常に重要です。それは、エージェントが実際の応用で遭遇する状況を正確に反映している必要があります。この点は、ソフトウェアテストにおけるデータセットの準備よりもさらに重要です。
行動軌跡とツール使用の評価
エージェントはユーザーに返信する前に、通常一連の操作を実行します。
例えば、ユーザー入力と会話履歴を比較して特定の用語の曖昧さを解消したり、ポリシー文書を検索したり、知識ベースを検索したり、APIを呼び出してチケットを保存したりする可能性があります。
これらの操作のそれぞれは、目標達成のパス上の一ステップであり、行動軌跡とも呼ばれます。
エージェントがタスクを実行するたびに、このような行動軌跡が存在します。
開発者にとって、エージェントが実際に取った行動軌跡と期待される行動軌跡を比較することは、問題を発見するのに非常に役立ちます。
比較を通じて、エラーや非効率な部分を見つけ出し、エージェントのパフォーマンスを向上させることができます。
ただし、すべてのメトリックがすべての状況に適用できるわけではありません。
一部の応用シナリオでは、エージェントが理想的な行動軌跡に厳密に従うことが求められますが、他のシナリオではある程度の柔軟性や偏差が許容されます。
この評価方法には明らかな限界もあります。それは、比較の基準として参照行動軌跡が必要であるということです。
最終応答の評価
最終応答評価の核心は、「エージェントは設定された目標を達成したか?」ということです。
自身のニーズに合わせて、カスタムの成功基準を策定し、これを測定することができます。
例えば、小売チャットボットが製品関連の質問に正確に回答できるかを評価したり、研究エージェントが適切なトーンとスタイルで研究成果を効果的に要約できるかを判断したりします。
評価プロセスを自動化するために、自動評価器を使用できます。自動評価器は本質的にLLMであり、評価者の役割を果たします。
入力プロンプトとエージェントが生成した応答を与えられた後、自動評価器はユーザーが事前に設定した一連の基準に基づいて応答を評価し、それによって人間の評価プロセスをシミュレートします。
ただし、この評価には絶対的な事実に基づいた参照がない可能性があるため、評価基準を正確に定義することが特に重要であることに注意が必要です。
人間参加型評価
人間参加型評価は、主観的な判断や創造的な問題解決が必要なタスクにおいて大きな価値があります。
同時に、自動化評価方法が実際に有効であり、期待に沿っているかを確認するために、その校正と検証にも使用できます。
人間参加型評価には主に以下の利点があります:
主観性:人間は創造性、常識、微妙な違いなど、定量化が難しい特質を評価できます。これらは機械が把握するのが難しいです。
状況理解:人間の評価者は、エージェントの行動の背景と影響をより広い視点から考慮し、より包括的な判断を下すことができます。
反復的改善:人間からのフィードバックは、エージェントの行動と学習プロセスを最適化するための非常に価値ある洞察を提供し、エージェントの継続的な最適化を支援します。
評価者の評価:人間からのフィードバックは、自動評価器の校正と最適化のための参考となり、自動評価器の評価をより正確にすることができます。
マルチモーダル生成(画像、音声、ビデオなど)の評価はさらに複雑であり、専門的な評価方法と指標が必要です。
マルチエージェントシステムとその評価
今日、AIシステムはマルチエージェントアーキテクチャの方向へと変革が進んでいます。
このアーキテクチャでは、専門的な能力を持つ複数のエージェントが相互に協力し、複雑な目標を共同で達成します。
マルチエージェントシステムは、それぞれが得意な分野で専門性を発揮する専門家チームのようなものです。
各エージェントは独立した個体であり、異なるLLMを使用したり、固有の役割を担ったり、異なるタスク背景を持つ場合があります。
これらのエージェントは、相互にコミュニケーションを取り、協力して共通の目標を達成します。
これは、すべてのタスクを単一のLLMが処理する従来のシングルエージェントシステムとは大きく異なります。
マルチエージェントアーキテクチャの理解
マルチエージェントアーキテクチャは、複雑な問題を異なるタスクに分解し、専門のエージェントに処理を委ねます。
各エージェントには明確な役割があり、意思決定プロセスを最適化し、知識検索効率を高め、タスクの円滑な実行を保証するために動的に相互作用します。
このアーキテクチャは、より構造化された推論方法、分散型の問題解決モデル、およびスケーラブルなタスク自動化処理を実現します。
マルチエージェントシステムは、モジュール性、協調性、階層化の設計原則を活用して、強力なAIエコシステムを構築します。
エージェントは機能に応じて異なるタイプに分類できます。例えば:
計画エージェント:高レベルの目標を構造化されたサブタスクに分解し、その後の作業のための詳細な計画を策定する責任を負います。
検索エージェント:外部ソースから関連データを動的に取得することで、知識取得プロセスを最適化し、他のエージェントに情報サポートを提供します。
実行エージェント:具体的な計算作業、応答コンテンツの生成、またはAPIとのインタラクションを実行し、様々な実際の操作を実現します。
評価エージェント:他のエージェントが生成した応答を監視および検証し、タスク目標に合致していること、論理的整合性、および正確性を保証します。
これらのコンポーネントの協調作業を通じて、マルチエージェントアーキテクチャは単純なプロンプトベースのインタラクション方法に限定されず、適応性、説明可能性、および効率的なAI駆動ワークフローを実現します。
マルチエージェント評価
マルチエージェントシステム評価は、シングルエージェントシステム評価を基盤として発展してきたものです。
エージェントの成功指標の本質は変わっていません。ビジネス指標は依然としてコアな注目点であり、目標と主要タスクの達成状況、および遅延やエラー率などのアプリケーションテレメトリ指標が含まれます。
マルチエージェントシステムの運用プロセスの追跡記録を通じて、複雑なインタラクションプロセス中に問題を発見し、システムをデバッグするのに役立ちます。
行動軌跡評価と最終応答評価という2つの方法は、マルチエージェントシステムにも同様に適用可能です。
マルチエージェントシステムでは、完全な行動軌跡が複数の、あるいは全てのエージェントの参加を含む場合があります。
複数のエージェントが協力してタスクを完了した場合でも、最終的にユーザーに提示されるのは単一の答えであり、この答えは個別に評価できます。
マルチエージェントシステムのタスクフローは通常より複雑でステップが多いため、各ステップを詳細に評価することができます。行動軌跡評価は実行可能でスケーラブルな評価方法です。
エージェント強化検索生成
エージェント強化検索生成(Agentic RAG)では、エージェントは複数回の検索を通じて必要な情報を取得します。
医療分野では、エージェント強化検索生成は医師が複雑な医学データベース、研究論文、患者記録を閲覧するのを助け、包括的で正確な情報を提供できます。
Vertex AI Searchは、Google品質の検索および検索拡張生成(RAG)サービスプロバイダーとして完全にマネージドされています。データ収集、処理、埋め込み、索引付け/ランキング、生成、検証、およびサービス提供などのプロセスをカバーしています。
Vertex AI Searchには、レイアウトパーサー、ベクトルランキングAPIなどのコンポーネントがあり、Python SDKを介してオーケストレーション可能なRAGエンジンも提供し、多数の他のコンポーネントをサポートしています。
独自の検索エンジンを構築したい開発者にとって、上記の各コンポーネントは独立したAPIとして公開されており、RAGエンジンはLlamaIndexのようなPythonインターフェースを利用してプロセス全体を容易にオーケストレーションできます。
企業におけるエージェント
企業は、従業員が特定のタスクを実行するのを支援したり、バックグラウンドで自動的に実行したりするために、エージェントを開発し、使用します。
ビジネスアナリストは、AIが生成した洞察を活用して、業界のトレンドを容易に掘り起こし、非常に説得力のあるデータ駆動型のプレゼンテーションを作成できます。人事チームは、エージェントを使用して従業員のオンボーディングプロセスを最適化できます。
ソフトウェアエンジニアは、エージェントに依存して脆弱性を事前に検出し修正し、開発の反復をより効率的に行い、デプロイプロセスを加速できます。
マーケターは、エージェントを活用してマーケティング効果を深く分析し、コンテンツ推薦を最適化し、マーケティングキャンペーンを柔軟に調整してパフォーマンスを向上させることができます。
現在、2種類のエージェントが台頭しています:
アシスタント型エージェント:これらのエージェントはユーザーとインタラクションし、タスクを受信して実行し、結果をユーザーにフィードバックします。
アシスタント型エージェントは、汎用的なものでも、特定のドメインやタスクに特化したものでも構いません。
例えば、会議のスケジュール設定、データ分析、コード作成、マーケティングコピー執筆、営業担当者が販売機会を把握するのを支援するエージェント、さらにはユーザーの要求に基づいて特定のテーマに関する詳細な調査を行うエージェントなどがあります。
それらの応答方法は異なり、情報やタスクを素早く同期的に返すものもあれば、実行に長時間かかるもの(例えば、詳細調査型エージェント)もあります。
自動化型エージェント:これらのエージェントはバックグラウンドで実行され、イベントをリッスンし、システムやデータの変更を監視し、合理的な意思決定を行い、行動を起こします。
これらの行動には、バックエンドシステムの操作、テスト検証の実行、問題解決、関連従業員への通知などが含まれます。
今日、知識労働者は、単にエージェントを呼び出してタスクを実行させ結果を待つだけではなく、徐々にエージェントの管理者へと移行しています。
管理を容易にするために、将来的にはマルチエージェントシステムのオーケストレーション、監視、管理を実現するための新しいユーザーインターフェースが登場するでしょう。これらのエージェントはタスクを実行できるだけでなく、他のエージェントを呼び出したり作成したりすることもできます。
NotebookLM エンタープライズ版
NotebookLMは、複雑な情報の理解と統合プロセスを簡素化することを目的とした研究および学習ツールです。
ユーザーは文書、メモ、その他の関連ファイルなど、様々なソースマテリアルをアップロードできます。NotebookLMはAI技術を活用して、ユーザーがこれらの内容をより深く理解できるよう支援します。
複雑なテーマを調査する際、NotebookLMが散在した情報を整理されたワークスペースに統合する様子を想像してみてください。
本質的に、NotebookLMは専属の研究アシスタントのようなもので、研究プロセスを加速させ、ユーザーが単なる情報収集から深い理解へと移行するのを助けます。
NotebookLM エンタープライズ版は、これらの機能をエンタープライズ環境に導入し、従業員のデータインタラクション方法を簡素化し、そこから価値ある洞察を得るのを支援します。
例えば、AIが生成した音声要約機能を使用すれば、ユーザーは研究内容を「聞く」ことで理解効率を高め、知識吸収を促進できます。
NotebookLM エンタープライズ版は、エンタープライズレベルのセキュリティとプライバシー機能を取り入れており、機密性の高い企業データを厳格に保護し、関連ポリシーに準拠しています。
Agentspace エンタープライズ版
Google Agentspaceは、従業員が情報にアクセスしやすくし、複雑なエージェントワークフローを自動化することで、企業生産性を向上させることを目的としたAI駆動型ツール群を提供します。
Agentspaceは、分散したコンテンツソースを統合し、根拠に基づいたパーソナライズされた応答を生成し、ビジネスプロセスを簡素化することで、従来の知識管理システムの固有の欠点を効果的に解決し、従業員が情報に効率的にアクセスできるように支援します。
Agentspace エンタープライズ版のアーキテクチャは、いくつかのコア原則に基づいて構築されています。
セキュリティは、常にGoogle Agentspaceの最優先事項です。
従業員はこれを通じて複雑な問題の回答を得ることができ、文書やメールなどの非構造化データであれ、表などの構造化データであれ、様々な情報ソースに統一的にアクセスすることもできます。
企業は自身のニーズに応じて、詳細調査、創造的な生成と最適化、データ分析などの作業のために一連のエージェントを設定できます。
Agentspace エンタープライズ版は、特定のビジネスニーズを満たすためのカスタマイズされたAIエージェントの作成もサポートしています。
このプラットフォームは、コンテキスト認識能力を持つエージェントを開発およびデプロイでき、マーケティング、財務、法務、エンジニアリングなどの各部門の従業員が効率的に調査を行い、迅速にコンテンツを生成し、反復的なタスク(複数ステップのワークフローを含む)を自動化するのを支援します。
カスタマイズされたエージェントは、内部および外部システムやデータに接続でき、企業のビジネスドメインやポリシー要件に適合し、独自のビジネスデータに基づいてモデルをトレーニングすることも可能です。
マルチエージェントアーキテクチャの実際の応用
マルチエージェントの概念が実際にどのように応用されているかを説明するために、自動車向けに特別に設計された包括的なマルチエージェントシステムを見てみましょう。
このシステムでは、複数の専門エージェントが協力して、ユーザーに便利でスムーズな車内体験を提供します。
対話型ナビゲーションエージェント:ユーザーが場所を見つけたり、場所を推薦したりするのを助け、Google PlacesやMapsなどのAPIを使用してナビゲーションを行うために特別に設計されています。
対話型メディア検索エージェント:ユーザーが音楽、オーディオブック、ポッドキャストを見つけて再生するのを支援することに特化しています。
メッセージ作成エージェント:運転中にメッセージやメールを作成、要約、送信するのを助けます。
自動車マニュアルエージェント:検索拡張生成(RAG)システムを使用して、自動車に関連する質問に特化して回答します。
汎用知識エージェント:世界、歴史、科学、文化、およびその他の一般的なテーマに関する事実的な質問に回答します。
マルチエージェントシステムは、複雑なタスクを複数の専門的なサブタスクに分解します。
このアーキテクチャでは、各エージェントが特定のドメインに特化しています。この専門化により、システム全体がより効率的になります。
ナビゲーションエージェントは位置特定とルート計画に特化しています。メディア検索エージェントは音楽とポッドキャストリソースの検索に精通しています。自動車マニュアルエージェントは車両関連の問題解決に長けています。
システムはタスクの難易度に応じてリソースを割り当てます。単純なタスクには低構成リソースを使用し、複雑なタスクには高性能リソースを呼び出します。
主要な機能(温度調整、窓開けなど)はエッジ側エージェントが素早く応答しますが、レストラン推薦のような緊急でないタスクはクラウド側エージェントに委ねられます。
この設計は、本質的にフォールトトレランスも備えています。ネットワーク接続が中断された場合でも、エッジ側エージェントは基本機能(温度制御や基本メディア再生など)を正常に動作させ続けることができますが、レストラン推薦などは一時的に利用できなくなるだけです。
参考資料:
https://x.com/aaditsh/status/1919383594533072974
https://www.kaggle.com/whitepaper-agent-companion