Google AI大爆発:全モデルをアップグレード、Gemini 2.5が両ランキングで首位に!全製品がAIで再構築、OpenAIはどう対応する?

画像画像

通常、I/Oカンファレンスの数週間前には、外部からあまりI/Oカンファレンスのニュースは聞こえてこない。なぜなら、Googleは通常、最高のモデルをI/Oカンファレンスで発表するために温存しているからだ。しかし、Gemini時代においては、Googleは3月の特定の火曜日に突如として最強の人工知能モデルを発表したり、AlphaEvolveのような素晴らしいブレークスルーを1週間早く発表したりする可能性が高い。

なぜなら、大規模モデル時代においては、最高のモデルと製品をできるだけ早くユーザーの手元に届けることが、企業の技術力のアピールとなるからだ。

画像

北京時間5月21日午前1時、2025 Google I/Oカンファレンスで複数の製品が発表されるにつれて、会場からは波のように熱狂的な拍手が沸き起こった。

この発表会で基調講演者を務めたGoogle CEOのスンダー・ピチャイ氏は、1時間以上にわたり、GoogleのAI、モバイルオペレーティングシステム、検索などの分野における数々のアップデートを精力的に紹介した。この発表会では、速報によるとGeminiが95回、人工知能が92回言及された。

以下は、この発表会のいくつかの重要なアップデートである。まずはモデル層から。

Gemini 2.5 Pro向けにDeep Think推論モデルとより良い2.5 Flashを導入

今回の発表会のクライマックスは、GoogleがGemini 2.5 Pro向けにDeep Think推論モデルとより良い2.5 Flashを導入すると発表したことだ。

画像

Googleはカンファレンスで、Gemini 2.5 Pro向けに「Deep Think」という推論モデルのテストを開始したと発表した。DeepMindのCEO、デミス・ハサビス氏は、このモデルは「最先端の研究成果」を採用しており、クエリに応答する前に複数の仮説を比較検討する能力を備えていると述べた。

2.5 Pro Deep Thinkは、現在最も難しい数学ベンチマークの一つである2025 USAMOで目覚ましい成績を収めた。競技レベルのプログラミング向けの高難易度ベンチマークであるLiveCodeBenchでも首位を獲得し、マルチモーダル推論をテストするMMMUでは84.0%のスコアを達成した。」

画像

しかしGoogleは、広範囲な公開前にさらなる詳細な安全評価と専門家の意見を求める必要があるため、まずは信頼できるテスター向けにGemini APIを通じて先行公開すると述べた。

Googleは同時に、より高性能なGemini 2.5 Flashモデルを発表した。このバージョンは速度と効率面で顕著な最適化を実現しており、推論効率の向上、トークン消費量の削減、マルチモーダル処理、コード生成、長文理解などのベンチマークテストで前世代を上回る結果を出している。

2.5 Flashは、Googleの最も効率的な主力モデルであり、速度と低コストのために設計されている。そして今、いくつかの側面で向上している。推論、マルチモーダル、コード、長文コンテキストなどの主要ベンチマークで改善されており、同時に効率もさらに向上し、評価では使用するトークンが20~30%削減されている。

画像

正式版は6月初旬にリリースされる予定で、現在、開発者はGoogle AI Studioを通じてプレビュー、企業ユーザーはVertex AIを通じて体験、一般ユーザーはGeminiアプリケーションで試用できる。

I/Oカンファレンスでは主に2.5 Flashの性能突破が示されたが、Googleはこのモデルの「思考予算」(Thinking Budgets)コンセプトを、より高次の2.5 Proバージョンにも導入すると発表した。この機能は、ユーザーがトークン消費と出力精度/速度の関係をバランスさせることを可能にする。

さらに、Googleは「プロジェクト・マリナー」(Project Mariner)をGemini APIとVertex AIに統合している。このプロジェクトはGeminiをベースに開発され、ブラウザ経由でユーザー指定のタスクを完了できるもので、今夏には開発者向けに拡大公開される予定だ。同時に、GoogleはGemini APIを通じて2.5 Pro/Flashモデル向けにテキスト読み上げ機能のプレビュー版も提供しており、24言語で2種類の発音人声に対応している。

特筆すべきは、Gemini 2.5シリーズに多くの新機能が導入されたことだ。

まずはネイティブ音声出力とLive APIの改善。Live APIでは、音声ビデオ入力とネイティブ音声出力対話のプレビュー版が提供されており、より自然で表現豊かなGeminiを使った対話体験を直接構築できる。

また、ユーザーは声のトーン、アクセント、話し方を制御できる。例えば、ユーザーはストーリーを語る際にモデルにドラマチックな声を使わせることができる。ツールを使うこともサポートしており、ユーザーに代わって検索を実行することも可能だ。

現在、ユーザーが試せる早期機能には以下のようなものがある:

感情対話:モデルがユーザーの声の感情を検出し、適切に反応する。

プロアクティブオーディオ:モデルが背景の会話を無視し、いつ応答すべきかを把握する。

Live APIでの思考:モデルがGeminiの思考能力を活用して、より複雑なタスクをサポートする。

Googleはまた、2.5 Proおよび2.5 Flashバージョン向けに、新しいテキスト読み上げ機能のプレビュー版をリリースする。これらの機能は初めてマルチスピーカーに対応し、ネイティブ音声出力によるステレオテキスト読み上げを可能にする。

ネイティブオーディオ対話と同様に、テキスト読み上げ機能は表現豊かで、ささやきのような非常に微細なニュアンスも捉えることができる。24以上の言語をサポートし、複数言語間をシームレスに切り替えることも可能だ。

次に、コンピュータ操作能力の向上がある。GoogleはProject Marinerのコンピュータ操作能力をGemini APIとVertex AIに導入している。マルチタスクをサポートし、最大10タスクを同時に実行でき、「Learn and Repeat」機能が追加され、AIが反復的なタスクを自動で完了することを学習できるようになる。

第三に、間接的なプロンプトインジェクションなどのセキュリティ脅威に対する防御が大幅に強化された。これは、悪意のある指示がAIモデルが取得するデータに埋め込まれることを指す。Googleの新しいセキュリティ手法は、Geminiがツール使用中に間接的なプロンプトインジェクション攻撃に対する防御率を大幅に向上させ、Gemini 2.5をこれまでで最も安全なモデルシリーズとしている。

第四に、開発者体験を向上させる3つの実用的な機能を追加:

思考サマリー機能のアップグレード。Gemini APIとVertex AIでは、2.5 Pro/Flashモデル向けに「思考サマリー」機能が新たに追加され、モデルの元の推論プロセスを、タイトル、重要な詳細、および操作指示(ツール呼び出しのタイミングなど)を含む明確な形式で構造化して出力できる。この設計は、開発者がモデルの意思決定ロジックをより直感的に理解できるようにすることを目的としており、対話の解釈可能性とデバッグ効率を向上させる。

思考予算メカニズムの拡張。2.5 Flashに続き、思考予算機能は現在2.5 Proモデルもカバーしており、開発者がトークン割り当てを調整することで、応答品質と遅延コストのバランスを取ることを可能にする。ユーザーはモデルの思考深度を自由に制御でき、機能を完全にオフにすることも可能だ。完全な思考予算をサポートするGemini 2.5 Pro正式版は数週間以内にリリースされる予定だ。

Gemini SDKのMCPツールとの互換性。Gemini APIはMCPのネイティブSDKサポートを追加し、オープンソースツールとの統合を簡素化する。Googleは、MCPサーバーなどのホスティングソリューションの展開を検討しており、エージェントアプリケーション開発を加速させる。チームはモデル性能と開発体験の最適化を継続すると同時に、基盤研究を強化してGeminiの能力範囲を拡大していく。さらなるアップデートが間もなく登場する。

Google Geminiの次のステップについて、Google DeepMindのCEOであるハサビス氏は、彼らが最も優れたGeminiモデルを「ワールドモデル」に拡張する作業に取り組んでおり、人間のように世界を理解しシミュレートすることで計画を立て、新しい体験を想像できるようになるだろうと述べた。

AIモードはGoogle検索の未来

画像

Googleの最も中心的な事業の一つとして、Google検索の各イテレーションは業界の注目を集めている。

Googleは、GeminiモデルがGoogle検索をよりスマートに、よりエージェントのように、よりパーソナライズされたものにするのを助けていると述べた。

昨年ローンチされて以来、AI概要は200の国と地域で15億人以上のユーザーにリーチしている。人々がAI概要を使用するにつれて、Googleは検索結果への満足度が高まり、検索頻度も増加していることを発見している。米国やインドなどのGoogle最大の市場では、AI概要がクエリタイプの増加を10%以上推進しており、この増加率は時間の経過とともに継続的に伸びている。

ピチャイ氏は、これは過去10年間で検索分野において最も成功した製品の一つだと述べた。

現在、エンドツーエンドのAI検索を体験したいユーザーのために、Googleは全く新しいAIモードを導入した。これは検索体験を完全に再構築するものだ。より高度な推論能力により、ユーザーはAIモードでより長く、より複雑なクエリを尋ねることができる。

実際、早期テスターが尋ねるクエリの長さは、従来の検索の2~3倍であり、ユーザーは追加の質問を通じてさらに深く探索することもできる。これらの機能はすべて、検索内の新しいタブで直接利用可能だ。

ピチャイ氏は「私はGoogle検索を頻繁に使用しており、これは私がGoogle検索を使う方法を完全に変えました。本日、米国でAIモードが全てのユーザーに利用可能になることを皆さんにお伝えできて嬉しく思います。私たちの最新のGeminiモデルにより、私たちのAI応答はGoogle検索に期待する品質と正確さを持つだけでなく、業界最速です。今週から、Gemini 2.5も米国のGoogle検索で利用可能になります。」と述べた。

画像

ビデオモデルVeo 3が登場

マルチモーダル面では、Googleは最新の先進ビデオモデルVeo 3を間もなくリリースすると述べた。これはネイティブ音声生成機能を備えている。Googleはまた、Googleの最新かつ最も強力な画像生成モデルであるImagen 4もリリースする。これらの2つのモデルはどちらもGeminiアプリケーションで利用可能であり、全く新しい創造の世界を開く。

GoogleはFlowという新しいツールを通じて、これらの可能性を映画制作者に提供している。ユーザーは映画クリップを作成し、短いシーンをより長いシーンに拡張できる。

プロンプト:賢い老フクロウが高く舞い上がり、森の上空に広がる月光下の雲を覗き見ている。この賢い老フクロウは慎重に空き地を旋回し、森の地面を見回している。しばらくして、月光下の小道に急降下し、アナグマの隣に着地する。音声:翼の羽ばたき音、鳥の鳴き声、大きくて心地よい風の音、そして断続的なブーンという音、足元の枝の折れる音、カエルの鳴き声。これは軽快なオーケストラ曲で、木管楽器が終始響き、リズムは陽気で楽観的、無邪気な好奇心に満ちている。

賢い老フクロウと緊張したアナグマが月光下の森の小道に座っている。「奴らは今日『ボール』を一つ残していった。私よりも高く跳ねるんだ。」アナグマは言葉に詰まりながらそう言い、その意味を理解しようと努めた。「これは何の魔法だ?」とフクロウは考え深げに鳴いた。音声:フクロウの鳴き声、アナグマの緊張した鳴き声、葉のさざめき、コオロギの鳴き声。

賢い老フクロウが画面から飛び立ち、緊張した若いアナグマが逆方向に走り去った。背景では、リスが駆け足で過ぎ去り、乾燥した秋の葉をかき鳴らす音を立てている。音声:鳥の鳴き声、大きな落ち葉のさざめき、そして断続的なブーンという音、足元の枝の折れる音、そして乾燥した落ち葉の中を移動するリスの音。遠くから、フクロウの鳴き声、アナグマの緊張した鳴き声、葉のさざめき、コオロギの鳴き声が聞こえ、これらの音は無邪気な好奇心に満ちている。

コーディングアシスタントJulesがパブリックベータを開始

発表会で、GoogleはJulesが正式にパブリックベータ段階に入り、世界中の開発者が直接体験できることを発表した。

Julesは、開発者の既存のコードベースと直接統合できる非同期エージェント型コーディングアシスタントだ。開発者のコードベースを安全なGoogle Cloud仮想マシン(VM)にクローンし、プロジェクトの完全なコンテキストを理解し、以下のタスクを実行する:テストの作成、新機能の構築、音声による更新ログの提供、バグ修正、依存関係バージョンの変更。

Julesは非同期で動作するため、開発者はバックグラウンドでJulesが実行されている間に他のタスクに集中できる。完了後、Julesはその計画、推論プロセス、および行われた変更の差分を表示する。Julesはデフォルトでプライベートであり、ユーザーのプライベートコードをトレーニングに使用することはなく、ユーザーのデータは実行環境内で隔離されたままになる。

JulesはGemini 2.5 Proを使用しており、今日利用可能な最も高度なコーディング推論技術の一部を利用できる。そのクラウドVMシステムと組み合わせることで、複雑な複数ファイルの変更と並行タスクを迅速かつ正確に処理できる。

具体的にJulesは何ができるのか?

実際のコードベースで機能:Julesはサンドボックスを必要としない。既存プロジェクトの完全なコンテキストを活用して、変更をインテリジェントに推論できる。

並行実行:タスクはクラウドVM内で実行され、並行実行を可能にする。複数のリクエストを同時に処理できる。

可視化されたワークフロー:Julesは変更を行う前に、その計画と理由を表示する。

GitHub統合:JulesはユーザーのGitHubワークフロー内で直接機能する。コンテキストスイッチングや追加設定は不要だ。

ユーザー制御性:コードの制御を維持するために、実行前、実行中、実行後に表示された計画を修正する。

音声サマリー:Julesは最近のコミットの音声変更ログを提供し、プロジェクト履歴を聞くことができるコンテキスト変更ログに変換する。

プロジェクトAstra、Googleの汎用AIアシスタントのプロトタイプ

昨年のGoogle I/O開発者カンファレンスで最も興味深かったデモの一つは、Project Astraだった。これは、リアルタイムで周囲の環境を認識し、会話形式で関連する質問に答えられるマルチモーダルAIの初期バージョンだ。このデモは、Googleがより強力なAIアシスタントを構築する計画を垣間見せたが、同社は慎重に、我々が見たものはあくまで「研究プレビュー」にすぎないと指摘した。

しかし、1年後、GoogleはAstraプロジェクトのビジョンを提示し、将来的にGeminiの特定のバージョンに力を供給し、「汎用AIアシスタント」とすることを望んでいる。この目標を達成するため、Astraプロジェクトはいくつかの重要なアップグレードを行った。GoogleはAstraのメモリをアップグレードし続けており(昨年見たバージョンは一度に30秒しか「記憶」できなかった)、コンピューター制御機能を追加して、Astraがより複雑なタスクを実行できるようにした。

このマルチモーダルで全知のロボットは、実際の消費者向け製品ではなく、少数のテスターを除いて、短期的には誰にも公開されない。Astraは、AIが将来どのように人類に奉仕できるかというGoogleの最も壮大で、最もワイルドで、最も野心的な夢を象徴している。Google DeepMindの研究ディレクター、グレッグ・ウェイン氏は、Astraを「汎用AIアシスタントのコンセプトカー」だと考えていると述べた。

最終的に、Astraで利用可能な機能はGeminiや他のアプリケーションに移植される。これには、音声出力、メモリ、およびいくつかの基本的なコンピューター使用機能に関するチームの作業が含まれる。これらの機能が主流になるにつれて、Astraチームは新たな作業方向を見つけている。

プロジェクトAuraスマートグラスが復活

次にハードウェアを見てみよう。Googleスマートグラスの時代が再び到来したようだ。本日、GoogleとXrealはカンファレンスで戦略的パートナーシップを締結し、Project Auraと呼ばれる新しいAndroid XRデバイスを共同開発すると発表した。

これは、昨年12月のAndroid XRプラットフォーム発表以来、公式に発表された2番目のデバイスだ。最初のデバイスはSamsungのProject Moohanだったが、こちらはApple Vision Proに似たXRヘッドセットだ。一方、Project AuraはXrealの他の製品と密接に関連している。技術的に正確な用語は「オプティカルシースルーXR」デバイスだろう。より分かりやすく言えば、没入型スマートグラスだ。

画像

Xrealのメガネ、例えばXreal Oneは、普通のサングラスにミニテレビを2台埋め込んだようで、少しごつごつして見える。Xrealの以前のメガネは、携帯電話やノートパソコンに接続して、再生中の番組であれ、飛行機で編集したい機密文書であれ、画面上のコンテンツを見ることができた。その利点は、ユーザーが周囲の世界を見る(または遮断する)ために不透明度を調整できることだ。Project Auraもこの同じ哲学を継承している。

しかしGoogleは、このハードウェアに関する詳細情報を発表会で明らかにしなかった。Xrealのスポークスパーソン、ラルフ・ジョディス氏は、来月のAugmented World Expoでより多くの情報が公開されると述べた。いくつかの既知の情報によると、Geminiが内蔵され、より広い視野を持つという。製品レンダリング画像では、ヒンジと鼻梁のカメラ、そしてテンプル部分のマイクとボタンが見られる。

これは、Xrealの既存デバイスと比較して、ハードウェアがアップグレードされることを示唆している。Project Auraは、XR向けに最適化されたQualcommチップセットを搭載する予定だ。Project Moohanと同様に、Project Auraも開発者が今からアプリケーションとユースケースを構築し始め、実際の消費者製品のリリース前に準備ができることを望んでいる。ちなみに、GoogleとXrealはプレスリリースで、ヘッドセット向けに開発されたAndroid XRアプリケーションは、Project Auraのような他のデバイスに簡単に移植できると述べている。

興味深いのは、Googleが次のスマートグラス時代の戦略を、Wear OSを最初に立ち上げた時と同様に考えていることだ。Googleがプラットフォームを提供し、サードパーティがハードウェアを担当する。詳細は少ないが、これはAndroid XRプラットフォーム上でローンチされる2番目の公式デバイスとなる。

免責事項:本記事はInfoQが翻訳・編集したものであり、プラットフォームの見解を代表するものではありません。無断転載を禁止します。

本日のおすすめ記事

ジェフ・ディーン氏:1年以内にAIがジュニアエンジニアに取って代わる、ネチズン:「アルトマンは絵に描いた餅を描くだけ、ジェフの言葉こそ致命的だ」

冷遇!バイトダンスSeedはCCPC決勝でサインイン問題1問しか解けず、DeepSeek R1はゼロ?

Borgスケジューリングが進化!Googleの超強力AIエージェントが登場:アルゴリズム設計、システム効率化、テレンス・タオ氏が直接支援、ネチズンは理系のエースと絶賛!

イベント推薦

AICon 2025が強力に来襲、5月上海、6月北京、双城連携で、AI技術の最前線と産業実装を網羅。カンファレンスは技術と応用の深い融合に焦点を当て、AIエージェント、マルチモーダル、シーン応用、大規模モデルアーキテクチャ革新、インテリジェントデータ基盤、AI製品設計、海外進出戦略などのトピックを集約。今すぐQRコードをスキャンしてチケットを購入し、一緒にAI応用の境界を探求しましょう!

画像

メインタグ:人工知能

サブタグ:Google I/O拡張現実AIモデルGoogle検索Gemini


前の記事:炸裂!Google I/Oカンファレンス王者帰還:Gemini「世界モデル」初登場、検索は「脳移植」、一言でオリジナル映画を制作

次の記事:Google | RAGシステムのエラーを追跡:選択的生成フレームワークを提案し、RAGの精度を10%向上

短いURLをシェア