マシンハートレポート
編集:Panda
GoogleのComputer Useモデルが登場しました!
今日の早朝、Google DeepMindは、Gemini 2.5に基づいたコンピュータ利用モデルであるGemini 2.5 Computer Useを大々的に発表しました。
Googleが先日Chrome DevTools (MCP)を発表したばかりであることを考えると、Gemini 2.5 Computer Useの登場は特に驚くべきことではありません。簡単に言えば、OpenAIのComputer-Using Agent (CUA)と同様に、このDeepMindのモデルはAIがユーザーのブラウザを直接制御することを可能にします。視覚理解と推論能力に基づいて、このモデルはブラウザ内でのクリック、スクロール、入力などの操作を実行するのに役立ちます。
公式のデモンストレーションを2つ見てみましょう。
プロンプト:https://tinyurl.com/pet-care-signup から、カリフォルニア州在住のペットの詳細をすべて取得し、スパCRM(https://pet-luxe-spa.web.app/)にゲストとして追加してください。次に、10月10日の午前8時以降の都合の良い時間に、専門家Anima Lavarによるフォローアップ訪問の予約を設定してください。訪問の理由は、彼らが要求した治療と同じです。
プロンプト:私のアートクラブはフェアに向けてタスクをブレインストーミングしましたが、ボードがごちゃごちゃしているので、私が作成したいくつかのカテゴリにタスクを整理するのを手伝ってほしいです。sticky-note-jam.web.app にアクセスし、ノートが正しいセクションに明確に配置されていることを確認してください。そうでなければ、そこにドラッグしてください。
見ての通り、ウェブ情報の収集やアクションの実行、あるいは雑然としたメモの整理のいずれにおいても、Gemini 2.5 Computer Useは非常に正確にタスクを完了し、その速度もかなり速いです。
関連するベンチマークにおいて、Gemini 2.5 Computer Useの性能もSOTA(最先端)レベルに達しました。
同時に、その速度性能も他の比較モデルよりも優れています。
現在、開発者はGoogle AI StudioおよびVertex AIのGemini APIを通じてこれらの機能を利用できます。ユーザーはBrowserbaseがホストするデモ環境で試用することも可能です(最大5分間のプロセスのみをサポートし、ユーザーによる途中介入はサポートしていません):https://gemini.browserbase.com/
私たち(マシンハート)は、このデモ環境を使用して何度か試行を行いました。全体として、Gemini 2.5 Computer Useはシンプルなタスクを完了する際には高い精度を示しますが、少し複雑なタスクになると失敗しやすくなります。
例えば、「ウィキペディアでジョン・ウィックのページを見つける」といったシンプルなタスクを実行する際、このモデルは非常に成功しました。
しかし、少し複雑になると、このモデルは失敗しました。例えば、「ウィキペディアでジョン・ウィックのページを見つけ、その情報を要約し、日本語版を提供する」というタスクです。さらに、「ノーベル賞の公式サイトを開き、今年のノーベル賞発表のスケジュールを提供する」というタスクや以下のタスクも、いずれも成功しませんでした。
プロンプト:jiqizhixin.com を閲覧し、過去半年間のGeminiに関するレポートを見つけ、それらをMarkdownファイルに整理して要約してください。
さらに、DeepMindはGemini 2.5 Computer Useシステムカードも公開しています:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Useの動作原理
このモデルの核となる機能は、Gemini APIに追加されたcomputer_useツールを通じて実現されており、開発者はこれをループプロセス内で実行する必要があります。
入力には以下が含まれるべきです。
- ユーザーリクエスト;
- 現在の環境のスクリーンショット;
- 最近実行されたアクションの履歴。
さらに、入力では、デフォルトでサポートされているUIアクションから特定の機能を除外したり、カスタム関数を追加したりすることも指定できます。
モデルはこれらの入力を分析した後、応答を生成します。これは通常、UIアクション(クリックや入力など)を表す関数呼び出しです。特定の操作(購入行動など)では、モデルはユーザーに確認を要求することもあります。その後、クライアントがこれらのアクションを実行します。
アクションの実行が完了した後、システムは最新のスクリーンショットと現在のURLを関数の応答としてモデルに返し、ループを再起動します。
この反復プロセスは、タスクが完了するか、エラーが発生するか、またはセキュリティメカニズムやユーザーの決定によって終了されるまで継続されます。
Googleは、現在のGemini 2.5 Computer Useモデルは主にウェブブラウザ向けに最適化されているものの、モバイルUI制御の分野でも強力な可能性を示していると述べています。ただし、デスクトップOSレベルの制御にはまだ最適化されていません。
安全メカニズムの設計
Googleはまた、ブログでこのモデルの安全メカニズム設計についても共有しました。
Googleは、「責任を持ってエージェントを構築することが、AIをすべての人に利益をもたらす唯一の方法です。コンピュータを直接操作できるAIエージェントは、ユーザーによる悪用、モデルの予期せぬ動作、ウェブ環境におけるプロンプトインジェクションや詐欺など、特有のリスクをもたらします。そのため、私たちは設計において安全保護を非常に重視しています」と述べています。
Gemini 2.5 Computer Useモデルでは、Googleはトレーニング段階で直接安全メカニズムを組み込み、3種類の主要なリスク(システムカードに詳述)に対処しています。
さらに、Googleは開発者に対し、モデルが潜在的に高リスクまたは有害な操作を自動的に実行するのを防ぐための安全制御オプションを提供しています。例えば、以下のような操作です。
- システム統合性の損害;
- 安全性の危機;
- CAPTCHAの迂回;
- 医療機器の制御。
Googleが実施している制御手段には以下が含まれます。
- ステップごとの安全サービス(Per-step Safety Service):推論段階で、独立した安全サービスがモデルが実行しようとする各アクションを評価します。
- システム指示(System Instructions):開発者は、特定の高リスクな操作の前に、エージェントが拒否するか、ユーザーの確認を要求するように設定できます。
結論
Google DeepMindがGemini 2.5 Computer Useを携えて華々しく参入したことで、複数のベンチマークで優れた性能が示されただけでなく、AIエージェント分野の競争は正式に激化の段階に入りました。
OpenAIからAnthropic、そして現在のGoogleに至るまで、テクノロジーの巨人は、私たちがコンピュータとどのように対話するかの未来を競って定義しています。現在のモデルが複雑な現実世界のタスクに直面するとまだ未熟に見えるかもしれませんが、これこそが技術的な夜明け前の真の姿です。今日私たちが目にしているのは、単なる新しいモデルではなく、キーボードとマウスの優位性が挑戦を受けており、自然言語を通じてデジタル世界を直接駆動する時代が、私たちに急速に近づいているという明確な信号なのです。
参考文献
https://blog.google/technology/google-deepmind/gemini-computer-use-model/