炸裂!Google I/Oカンファレンス王者帰還:Gemini「世界モデル」初登場、検索は「脳移植」、一言でオリジナル映画を制作

たった今!GoogleはI/O 2025カンファレンスを開催しました。最大の感想は、Googleが再びAIのリーダーシップの地位に戻ったということです。GoogleはGeminiを核として真のAIオペレーティングシステムを構築しており、「世界モデル」が初めて登場しました。

今年のGoogle I/Oカンファレンスでは、一度に膨大な数の技術が更新・発表されました。

まず明確にすべきは、期待されていたGemini 2.5 Ultraモデルは予定通りには登場しなかったということです。我々が得たのは250ドルの「Ultraメンバーシップパッケージ」(Ultra Tier)であり、待ち望んでいたUltraモデルそのものではありません。しかし、Gemini 2.5 Pro 「Deep Think」のリリースに伴い、Proモデルは大きな革新を遂げ、その実際の能力はUltraレベルに匹敵します。

では、具体的にどのような新内容があったのでしょうか?(リストは確かに長いです):

モデルとエージェントツール

Gemini 2.5 Pro 「Deep Think」:並列思考能力を備え、複雑な数学やコーディングタスクのために特別に設計されており、制御を強化するための設定可能な「思考予算」を提供し、Gemini 2.5 Proを極限まで引き上げます。パフォーマンスは以下の通りです:

Gemini 2.5 Flash 5月20日版:より高速で経済的になり、「思考サマリー」機能が追加され透明性が向上しました。パフォーマンスはGemini 2.5 Proに無限に近づいています。

Gemini Diffusion:Googleが初めて拡散技術をテキスト生成に応用し、実験的モデルGemini Diffusionを発表しました。これは従来のトップモデルよりも5倍高速です。

Jules:OpenAIのCodexに対抗する非同期コーディングエージェントで、バックグラウンドでエラー修正や機能プロトタイプの開発を行うことができます。使用するには登録と待機が必要です。

マルチモーダル能力の爆発

Google Meet:リアルタイム翻訳機能が追加されました。

Veo 3:動画生成能力が大幅に向上し、4Kのリアルな効果を持つ動画を生成し、ネイティブオーディオ、対話、ノイズ合成をサポートします。

Imagen 4:OpenAI gpt-4oの画像生成能力に対抗し、それを超えるものですが、速度は3倍高速です。2K画像モデルで、タイポグラフィやテキスト画像生成においてより高速で正確です。

Flow:ハリウッドの監督と共同で作成された全く新しい映画制作ツールで、Veo 3とGeminiの能力を組み合わせており、テキストプロンプトに基づいて完全な映画シーンを構築できます。

FlowはクリエイターがAIをより直感的に「監督」できるようにします:自身のキャラクターやシーン素材をアップロードするか、Imagenで即座に生成します。正確なカメラ指示を通して望む映像を説明し、Flowは自動的にクリップを生成し、キャラクターとシーンの一貫性を維持します。従来の編集ソフトウェアのように、無限に反復、ショットの調整、クリップの延長またはトリミングが可能です。Flowの目標は、映画制作を全く新しい「フロー」の状態に導き、創造性が自然に成長し、映画制作を「手順通り」から「インスピレーションの爆発」に変えることです。

Google検索の完全なる再構築:全く新しい「AIモード」(AI Mode)

より複雑なクエリ:ユーザーは従来の検索より2〜3倍長い複雑な質問ができるようになりました。例えば、「私は薄灰色のソファを持っていて、部屋を明るくするブランケットを探しています。家に元気な子供が4人いて、友達がよく遊びに来ます。」といった質問です。AIモードは、リンク、ビジネス情報、評価を含む、テキストと画像を備えた応答を動的に生成します。

ディープサーチ(Deep Search):より詳細な答えが必要な質問に対して、AIモードは「ディープサーチ」を実行できます。数十、あるいは数百ものクエリを同時に実行し、ウェブ全体、ナレッジグラフ、ショッピンググラフ、マップコミュニティからのデータを統合し、数分以内に専門家レベルの、完全な引用付きレポートを生成し、大量の調査時間を節約できます。

複雑な分析と視覚化:AIモードは、複雑なデータを分析し、視覚化されたグラフを生成するのを助けてくれます。例えば、「魚雷バット」を使用する有名な野球選手の今シーズンと昨シーズンの打率と出塁率を知りたい場合、すぐにテーブルを生成し、後続の質問に基づいてグラフを生成します。まるで専属のスポーツアナリストがいるようです!

Search Live:Project Astraのリアルタイム機能もSearchに統合されました!スマートフォンのカメラを通して、Searchと「ビデオ通話」を行い、あなたが見ているものを見させ、リアルタイムの助けを得ることができます。DIYでの家の修理、難しい宿題、新しいスキルの学習など、それはあなたの「リモートエキスパート」になることができます。

エージェントチェックアウト(Agentic Checkout):AIモードはショッピングタスクの完了も手伝ってくれます!複数のウェブサイトを閲覧し、数百ものオプションを分析し、フィルタリング、価格比較、さらには直接チェックアウトページへのリンクを提供し、チケットを素早く手に入れるのを助けてくれます。将来的には、レストランの予約やローカルサービスの予約もサポートする予定です。

Google、AIメガネ開発に参入:AIはデジタル世界を変えるだけでなく、物理世界にも深く影響を与える。

没入型ヘッドセット:Samsungと協力したProject Moohanは、最初のAndroid XRデバイスです。それは「無限の画面」体験を提供します。XR版Googleマップでは、Geminiに行きたい場所を伝えるだけで、世界のどこへでも「瞬間移動」できます。また、MLBアプリでは、スタジアムの最前列に座っているかのように試合を観戦し、同時にGeminiと選手のデータを議論できます。今年後半に発売予定です。

軽量メガネ:Googleは最新のAndroid XRメガネのプロトタイプを公開しました。軽量で持ち運び可能で、一日中着用でき、カメラ、マイク、スピーカーを統合しています。オプションのレンズ内ディスプレイは、必要なときにプライベートに情報を表示することもできます。これは、あなたのAIアシスタントがあなたが見たり聞いたりすることを真に「見て」「聞いて」、リアルタイムでコンテキストに合った助けを提供することを意味します。まるで「超能力メガネ」をかけたようです!ライブデモンストレーションでは、コーヒーカップのカフェの名前を認識し、ナビゲーションを助け、コーヒーの予約をし、さらにはリアルタイムの異言語翻訳を行うことができました。Googleは、Warby ParkerとGentle MonsterがAndroid XRと協力する最初のアイウェアブランドになることを発表しました。将来的には、あなたのスタイルに合ったスタイリッシュなAIメガネを着用できるようになり、開発者も今年後半にメガネプラットフォームの開発を開始する予定です。

その他

Gemma 3n:超軽量のマルチモーダルモデル(テキスト、画像、オーディオ、ビデオをサポート)で、スマートフォンおよびエッジデバイス向けに特別に設計されています。

Lyria RealTime:インタラクティブな音楽大規模言語モデルで、ライブパフォーマンスをサポートし、API経由でファインチューニングが可能です。

MedGemma & SignGemma:それぞれ医療画像分析と手話翻訳に使用される2つのオープンな専門モデルです。

Agentic Colab:コードを自己修復し、タスクを自動化できるノートブック環境です。

Gemini Code Assist 2.5:無料のプログラミングアシスタントおよびコードレビューエージェントで、現在200万トークンのコンテキストをサポートしています。

Firebase Studio:Figmaのデザインをフルスタックアプリケーションに変換し、バックエンドを自動的に設定できるAIワークスペースです。

Stitch:説明や画像に基づいてUIデザインとフロントエンドコードを生成できます。

Google AI Studioアップグレード:エディタにGemini 2.5 Pro、Imagen 4、Veo 3を直接統合し、GenAI SDKを提供します。

新しいGemini API機能:ネイティブオーディオ出力、リアルタイムAPI、非同期関数呼び出し、コンピューター使用API、URLコンテキスト、およびMCPサポートを含みます。

Project Beam:Starlineプロジェクトの後継で、HPと協力して3Dビデオ通話ハードウェアを開発しています。

Project Astraアップグレード:見たり聞いたり話したりできるアクティブなマルチモーダルアシスタントです。

以上が今回のGoogleカンファレンスで発表された内容の簡潔なまとめです。

最後に

まず、これはGoogleがそのAIエコシステムを開発するためにいかに全力を尽くしているかを明確に示しています。もし過去にApple社がその優れた調整されたデバイスエコシステムで知られていたとすれば、今のGoogleはAIを通じてこの理念を新たな高みへと押し上げています。具体的には:Geminiは現在システム内で積極的に動作できます。

さらに、すべての製品で調整されたネイティブ言語モジュールのおかげで、GeminiはほぼすべてのGoogle製品に深く統合されています。Google Watch、XRメガネ、Pixelスマートフォンであれ、Geminiは完璧に適応し、デバイスの特性に基づいて対応する拡張機能を提供します(例えば、XRデバイスでの地図重ね合わせ機能は驚くべき効果です!)。

したがって、もしAppleが過去にiCloudを通じてすべてのデバイスの相互接続を実現したとすれば、今のGoogleはさらに一歩進んでいます。

発表会で、Google DeepMind CEOでノーベル賞受賞者のデミス・ハサビス氏は、Geminiを「世界モデル」に拡張するために懸命に取り組んでいると述べました。彼はそれを「脳のように、世界のさまざまな側面をシミュレートすることで計画を立て、新しい体験を想像できるモデル」と定義しました。Google社内では間違いなくこれに取り組んでいます。これはAGIを達成するための究極の一手です。

Google、王者の帰還。

メインタグ:人工知能

サブタグ:Google I/OXRメガネGoogle検索Gemini


前の記事:筆者解説!Qwenが発表した新しいスケーリング法則「Parallel Scaling」をアイデア視点から語る

次の記事:Google AI大爆発:全モデルをアップグレード、Gemini 2.5が両ランキングで首位に!全製品がAIで再構築、OpenAIはどう対応する?

短いURLをシェア