新智元レポート
編集:Aeneas KingHZ
【新智元概要】未来のAIロードマップが明らかに!GoogleはTransformerを発明しましたが、そのロードマップでは、既存のアテンションメカニズムでは「無限コンテキスト」を実現できないことを認めています。これは、次世代のAIアーキテクチャが「ゼロから書き直されなければならない」ことを意味します。Transformerの時代は本当に終わりを迎えるのでしょうか?今後、Googleはどのような計画を持っているのでしょうか?
つい最近、Googleの未来のAIロードマップが明らかにされました!
GoogleのプロダクトリーダーであるLogan Kilpatrick氏は、AIエンジニア世界博覧会での講演で、Geminiモデルの未来について説明しました。
将来的には、Geminiの全モダリティが重点となり、モデルは徐々にエージェント化し、推論能力は継続的に拡張されるでしょう。
要点速報——
・ 全モダリティ(r)
画像+音声生成をネイティブサポート済み、次は動画
・ Diffusionの早期実験(r)
拡散モデル関連
・ デフォルトでエージェント能力を搭載(m)
一流のツール呼び出しとツール使用能力、しかしより重要なのは、モデルが徐々にエージェントになりつつあること
・ 推論能力の継続的な拡張(s)
次々と研究ブレイクスルーが続出
・ より多くの小型モデル(s)
まもなくさらに多くの情報が共有される予定
・ 無限コンテキスト(r)
現在のアテンションメカニズムとコンテキスト処理方法では、これは実現不可能。この目標を達成するには、コアアーキテクチャレベルでの全く新しいイノベーションが必要
・ 大規模モデル
規模がすべて
注記:(r)、(s)、(m) は、Googleのロードマップにおける各プロジェクトの進捗度を示しています。
• (s) = short: 短期/まもなくリリース – すでに進行中またはまもなくリリースされるプロジェクト
• (m) = medium: 中期 – まだ開発中のプロジェクトで、今後数四半期以内にリリース予定
• (r) = research: 研究/長期プロジェクト – リリース前にまだ実験段階にあるか、画期的な進展が必要なプロジェクト
シリコンバレー大手企業の激戦
AI中間成績表の総括
Googleは現在、Gemini 2.5 Proによって着実に挽回し、AI分野におけるリーダーとしての地位を再び証明していることがわかります。
Xの著名なインフルエンサー「Chubby」も、シリコンバレーの大手企業について「中間報告」を行いました。
OpenAI
現在もリードを維持しており、o3、o3 pro、そして間もなく登場するGPT-5により、その地位は依然として確固たるものです。定期的な更新を続け、頻繁にAIツールをリリースしており、ユーザー数の増加がすべてを物語っています。
DeepSeek
DeepSeekはr1で目覚ましい成功を収めた後、相次いで大規模なアップデートをリリースしましたが、現在世界は後続製品r2を待っています。DeepSeekが今後どのように展開していくかについては、まだ手掛かりがありません。
Anthropic
ソフトウェア開発(SWE)分野では依然としてリーダーです。CEOの言葉が真実であれば、エージェントとさらなる発展により、今後数年以内にすべてのプロセスが自動化され、汎用エージェントによって処理されるでしょう。現在、Anthropicはビジネス分野に注力しており(これは低いレート制限からも明らかです)、引き続き強力な地位を維持しています。
しかし、今年最大の勝者はGoogleかもしれません。ほぼ新興企業からリーダーの座に躍り出ました。Geminiは目覚ましい成功を収めています。定期的な製品アップデート、多くの発表、優れたTPUのポジショニングなど、Googleの未来は明るいように見えます。
Meta
Metaが後れを取っていることは否定できません。Llama 4は失敗し、Behemothもまだリリースされていません。ザッカーバーグは、再び追いつくために新しい超知能チームを結成しました。Alexandr WangがScale AIからMetaに加わることが転換点となるかどうかは、まだ見守る必要があります。
Grok
Grok 3.5もまもなくリリースされます。現時点では評価が難しいです。GrokはColossusクラスターにおいて明らかに有利な立場にあります。しかし、より良いモデルを訓練できるかどうかは、まだ見守る必要があります。
この中で最も高く評価されているGoogleは、今後どのような大きな動きをするのでしょうか?
Logan Kilpatrick氏の講演内容を詳しく見て、重要な手がかりを探しましょう。
全社的に認められた、Gemini 2.5 ProはGoogleの大きな転換点
今回の会議で、元OpenAIメンバーでありGoogle AI StudioのプロダクトリードであるLogan Kilpatrick氏は、Gemini 2.5 Proと今後のGoogle Geminiの計画について多くの詳細を明かしました。
Logan Kilpatrick氏については、興味深い逸話もあります。Geminiのジョーク作成能力は彼のツイートに基づいて訓練されたため、面白くないと言われています。🤣
現在、Logan Kilpatrick氏はGemini API開発およびAGI研究を担当しています。
講演の中で、Logan Kilpatrick氏は迅速に3つの内容を話しました。
1. Gemini 2.5 Proに関するいくつかの興味深い発表内容。
2. 過去1年間のGeminiの進捗の振り返り。
3. 今後の展望 — モデル自体、Gemini App、そして開発者プラットフォームの今後の計画。
Gemini 2.5 Proについて、彼はGoogle社内および外部の開発者エコシステムの両方から「転換点」と見なされていると述べています。
数学、プログラミング、推論において、全面的に神格化され、すべてのランキングで首位を確固たるものにしています。
これはGeminiの未来にとって強固な基盤を築きました。
Geminiのビジョン
「統合アシスタント」
Logan Kilpatrick氏は皆に質問を投げかけました。過去のGoogleの各製品間のつながりとは何だったでしょうか?
ほとんどの人はGoogleアカウントを思い浮かべるでしょう。しかし、Googleアカウント自体は「状態を保持」せず、その役割は、独立した各製品にログインさせることだけでした。
そして今、Geminiは「統一スレッド」(thread)— Googleのすべてのサービスをつなぐ線 — になりつつあります。
Gemini Appは非常に面白く、クールで、GoogleがAI製品の未来についてどのように考えているかを体現しています。
彼は、Googleの未来はこのようになるだろうと信じています。
Geminiは統一インターフェースとなり、すべてのGoogle製品を接続し、真の「全領域アシスタント」を形成するでしょう。
現在、ほとんどのAI製品は依然として「ユーザーによる能動的な操作」— ユーザーが自ら質問し、機能を要求する — です。
しかし、最もエキサイティングなのはAIの次の段階です。
「プロアクティブAI」(Proactive AI)— AIが自ら問題を発見し、提案を提供し、タスクを自動的に処理します。
そして今、Googleは新たなパラダイムシフトに全力を注いでいます。
1. マルチモーダル能力:ネイティブ音声処理はAstraとGemini Liveで既にサポートされており、Veo技術は業界をリードし続けており、動画統合が次の段階の重点となるでしょう。
2. モデルの進化:単なるトークンプロセッサから、体系的な推論能力を持つエージェントへと移行しており、「推論拡張」は特に注目すべき点です。
3. アーキテクチャの革新:小型モデルエコシステム、無限コンテキストソリューション(既存のアテンションメカニズムの制限を突破する必要がある)、そして初期の拡散実験が示す驚くべきトークン処理能力が含まれます。
「全モダリティ統一モデル」への前進
モデルの観点から見ると、Geminiは当初から、音声、画像、動画のすべてを処理できる統一されたマルチモーダルモデルとして構想されていました。
この分野で、Googleは大きな進展を遂げました。
Google I/Oカンファレンスでは、Geminiのネイティブ音声能力(テキスト読み上げTTS、音声合成、音声対話)が発表されました。
自然な会話をサポートしており、非常に自然に聞こえます。
これらの能力はAstroとGemini Liveに統合されています。
現在、Astroは以下の機能を統合しています。
Googleはまた、「Veo」関連機能(Video + Other)を推進しており、これは複数の指標でSOTAレベルに達しており、将来的にはメインのGeminiモデルに統合される予定です。
さらに、Googleは「拡散ベースの推論」(diffusion-based reasoning)— Gemini Diffusionの研究も進めています。しかし、このプロジェクトはまだ研究の最先端にあり、メインラインには組み込まれていませんが、その将来性は期待できます。
Gemini Diffusionは非常に高いスループットレートを持ち、毎秒1000以上のトークンをサンプリングできます。
エージェントが主流に
最近、Logan Kilpatrick氏は、システム推論能力が強まるにつれて、未来のAI製品がどのような形態になるのかについて考えていました。
これまで、開発者はモデルをブラックボックスツールとして扱ってきました。
トークンを入力し、トークンを出力する。
そして、外部で様々な足場(scaffolding)を構築して機能を強化していました。
しかし今、状況は変わりました。
モデル自体がますます体系化され、自律的に行動できるようになり、「受動的な計算機」ではなくなっています。
彼は、「推論プロセス」が核となる変革点になると考えています。すなわち、モデルの推論能力をどのように拡張するか、ということです。
彼が非常に期待している問題は、
これまで外部で行っていた多くの足場構築が、将来的にモデルの内部推論プロセスに統合されるかどうかです。これは開発者が製品を構築する方法を根本的に変えるでしょう。
その他のロードマップ:小型モデル、大規模モデル、無限コンテキスト
これに加えて、Googleは以下の新製品と研究にも注力します。
より多くの「小型モデル」—軽量で、モバイルデバイスや低消費電力デバイスに適しています。
より大規模なモデル—ユーザーの究極の能力への期待に応えます。
そして、より重要なのは「無限コンテキスト」の研究におけるブレイクスルーです。
現在のAIモデルアーキテクチャ(Transformerなど)の重要な欠陥の一つは、無限コンテキストをうまくサポートできないことです。
Googleは、アテンションメカニズムが無限に拡張できないのであれば、新しい構造が必要だと考えています。
彼らは積極的に探索しています。どのようにしてモデルが超大規模なコンテキストを導入し、理解し、効率的に処理できるようにするかを。
まもなくリリースされる開発者機能の重点は以下の通りです。
1. 埋め込みモデル(Embeddings) 「AIの初期ツール」のように感じられるかもしれませんが、依然としてコアコンポーネントです。 RAGアプリケーションのほとんどは、埋め込みに依存しています。 Googleはまもなく最先端のGemini埋め込みモデルをリリースし、より多くの開発者に提供する予定です。
2. ディープリサーチAPI(Deep Research API) ユーザーは「ディープリサーチ」機能を非常に好んでいます。 Googleはこれらの能力を専門のAPIインターフェースに集約し、研究開発者向けに提供する予定です。
3. Veo3とImagine 4のAPI接続:まもなくリリースされます。
最後の重要な点として、Googleは「AI Studio」の再ポジショニングを計画しています。
もはやB2C製品ではなく、「開発者プラットフォーム」として明確に位置づけられます。
将来的には、AI Studioは真の開発ツールプラットフォームとなり、Julesや開発者専用のコードエージェントなどのエージェント構築機能が組み込まれ、開発者に完全な構築体験を提供するでしょう。
2024年:Geminiにとって最もクレイジーな年
Google Geminiチームにとって、過去1年間は「最もクレイジーな年」だったと言えるでしょう。
Google I/Oで、ピチャイ氏はスライドの1ページを示しました。過去12ヶ月間、Google Geminiチームはまるで10年分の開発作業を圧縮したかのようでした。
Logan Kilpatrick氏の個人的な視点から、Googleの真の強みは、
AIの基礎研究だけでなく、科学、幾何学、ロボット工学など多分野の研究も推進しており、
これらの研究が最終的にメインのGeminiモデルにフィードバックされる点にあると考えています。
Google I/Oでの講演で、ピチャイ氏は別のスライドも示しました。過去1年間で、GoogleサーバーのAI推論タスク処理量が50倍に増加したと!
Logan Kilpatrick氏は、「これは外部の開発者エコシステムにおけるGeminiモデルへの需要が爆発的に増加していることを示しています」と述べています。
実際、その背後にある鍵は技術だけでなく、組織構造の変革です。
2023年初頭、Googleは複数のAI研究チームをDeepMindに統合し、新しい方向性を定めました。
理論研究に限定するだけでなく、Google社内および外部の開発者エコシステムに貢献できる、真に実用的なモデルを構築することです。
その後、製品チームもDeepMindに組み込むという第二段階に進みました。これは以下のことを意味します。
DeepMindはモデルの開発と研究の推進を担当する。
同時に製品を構築し、それを世界中のユーザーに提供する。
最近、GoogleはDeepMindの最高技術責任者であるKoray Kavukcuoglu氏を、新しい上級副社長職である「チーフAIアーキテクト」に任命しました。
Koray Kavukcuoglu
研究チームと密接に協力し、最先端のモデル能力を現実世界にもたらす。
この「最先端コラボレーション」のプロセスは、Logan Kilpatrick氏個人が非常に楽しんでいるものです。
このイノベーションのペースは非常に刺激的であり、彼はこれがまだ始まったばかりだと信じています。
Google DeepMindの内部公式は非常にシンプルで、一言でまとめると、
最高の才能を見つけ、インフラの強みを活かし、そして…ひたすらリリースし続ける!
参考文献:
https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s
https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments