Explosion! Google I/O Konferenz König kehrt zurück: Gemini "Weltmodell" taucht auf, Suche erhält "Gehirntransplantation", Erstellen Sie Originalfilme mit einem Satz

Soeben! Google hat die I/O 2025 Konferenz abgehalten, und das größte Gefühl ist, dass Google wieder an die Spitze der KI zurückgekehrt ist. Google baut ein echtes KI-Betriebssystem, das auf Gemini basiert, mit dem ersten Auftauchen eines "Weltmodells".

Die diesjährige Google I/O Konferenz hat auf einmal eine riesige Menge an Technologien aktualisiert und veröffentlicht.

Zuerst muss klar gestellt werden, dass das mit Spannung erwartete Gemini 2.5 Ultra Modell nicht wie geplant erschien. Was wir erhielten, ist ein $250 "Ultra Tier" Abonnement, nicht das Ultra Modell selbst, auf das wir sehnsüchtig gewartet hatten. Doch mit der Einführung von Gemini 2.5 Pro "Deep Think" hat das Pro Modell eine bedeutende Revolution durchgemacht, und seine tatsächliche Fähigkeit ist mit dem Ultra-Level vergleichbar.

Was genau ist also neu? (Die Liste ist in der Tat sehr lang):

Modelle und Agenten-Tools

Gemini 2.5 Pro "Deep Think": Besitzt parallele Denkfähigkeiten, speziell für komplexe mathematische und Kodierungsaufgaben konzipiert, und bietet ein konfigurierbares "Denkbudget" zur Verbesserung der Kontrolle, das Gemini 2.5 Pro an die Grenze bringt, mit folgender Leistung:

Gemini 2.5 Flash Version vom 20. Mai: Schneller, wirtschaftlicher und fügt eine "Denkzusammenfassung"-Funktion hinzu, um die Transparenz zu erhöhen. Seine Leistung nähert sich unendlich Gemini 2.5 Pro an.

Gemini Diffusion: Googles erste Anwendung der Diffusionstechnologie auf die Textgenerierung, die das experimentelle Modell Gemini Diffusion vorstellt, das 5-mal schneller ist als frühere Top-Modelle.

Jules: Vergleichbar mit OpenAIs Codex, ein asynchroner Kodierungsagent, der im Hintergrund Fehlerbehebungen und Funktionsprototypen entwickeln kann. Erfordert Registrierung und Wartezeit zur Nutzung.

Multimodale Fähigkeiten-Explosion

Google Meet: Fügt Echtzeit-Übersetzungsfunktion hinzu.

Veo 3: Deutlich verbesserte Videogenerierungsfähigkeit, die Videos mit realistischen 4K-Effekten generiert und native Audio-, Dialog- und Rauschsynthese unterstützt.

Imagen 4: Vergleichbar mit und übertrifft OpenAIs gpt-4o-Bildgenerierungsfähigkeit, ist aber 3-mal schneller. Ein 2K-Bildmodell, schneller und genauer bei der Typografie und der Text-zu-Bild-Generierung.

Flow: Ein brandneues Filmemaching-Tool, das in Zusammenarbeit mit Hollywood-Regisseuren entwickelt wurde. "Flow" kombiniert die Fähigkeiten von Veo 3 und Gemini und kann auf Basis von Textaufforderungen komplette Filmszenen erstellen.

Flow ermöglicht es Kreativen, KI intuitiver zu "regieren": Laden Sie Ihre eigenen Charakter- und Szenenmaterialien hoch oder generieren Sie sofort mit Imagen; beschreiben Sie die gewünschte Aufnahme durch präzise Kameraanweisungen, und Flow generiert automatisch Clips und erhält die Konsistenz von Charakteren und Szenen aufrecht. Sie können unendlich iterieren, Aufnahmen anpassen, Clips verlängern oder kürzen, genau wie in traditioneller Bearbeitungssoftware. Flows Ziel ist es, das Filmemachen in einen neuen Zustand des "Flows" zu bringen, Kreativität natürlich wachsen zu lassen und die Filmkreation von "Schritt für Schritt" zu "Explosion der Inspiration" zu verändern.

Google Search komplett umgestaltet: Ein brandneuer "KI-Modus" (AI Mode)

Komplexere Suchanfragen: Benutzer können jetzt komplexe Fragen stellen, die zwei- bis dreimal länger sind als bei der traditionellen Suche, wie z. B. "Ich habe ein hellgraues Sofa und möchte eine Decke finden, die den Raum aufhellt. Ich habe 4 aktive Kinder zu Hause, und Freunde kommen oft zu Besuch." Der KI-Modus generiert dynamisch Antworten mit Text und Bildern, einschließlich Links, Geschäftsinformationen und Bewertungen.

Deep Search: Für Fragen, die detailliertere Antworten erfordern, kann der KI-Modus "Deep Search" durchführen. Er kann Dutzende oder sogar Hunderte von Suchanfragen gleichzeitig senden, Daten aus dem gesamten Web, dem Knowledge Graph, dem Shopping Graph und der Karten-Community integrieren und innerhalb weniger Minuten einen Expertenbericht mit vollständigen Zitaten erstellen, was Ihnen viel Recherchezeit spart.

Komplexe Analyse und Visualisierung: Der KI-Modus kann Ihnen helfen, komplexe Daten zu analysieren und visualisierte Diagramme zu erstellen. Wenn Sie beispielsweise den Schlagdurchschnitt und das On-Base-Percentage berühmter Baseballspieler wissen möchten, die "Torpedo-Schläger" in dieser und der letzten Saison verwendet haben, kann er sofort eine Tabelle generieren und basierend auf nachfolgenden Fragen Diagramme erstellen, genau wie ein engagierter Sportanalyst!

Search Live: Die Echtzeit-Fähigkeit von Project Astra ist ebenfalls in Search integriert! Über Ihre Handykamera können Sie einen "Videoanruf" mit Search führen, es sehen lassen, was Sie sehen, und Echtzeit-Hilfe erhalten. Ob es sich um DIY-Reparaturen zu Hause, schwierige Hausaufgaben oder das Erlernen neuer Fähigkeiten handelt, es kann Ihr "Remote-Experte" werden.

Agentic Checkout: Der KI-Modus kann Ihnen auch helfen, Einkaufsaufgaben zu erledigen! Er durchsucht mehrere Websites, analysiert Hunderte von Optionen, hilft Ihnen beim Filtern, Preisvergleichen und verlinkt sogar direkt zur Kasse, damit Sie schnell Tickets ergattern können. Zukünftig wird er auch Restaurantreservierungen und lokale Service-Termine unterstützen.

Google tritt der Entwicklung von KI-Brillen bei: KI wird nicht nur die digitale Welt verändern, sondern auch die physische Welt tiefgreifend beeinflussen.

Immersives Headset: Project Moohan, in Zusammenarbeit mit Samsung, ist das erste Android XR Gerät. Es bietet ein "unendliches Bildschirm"-Erlebnis. In der XR-Version von Google Maps müssen Sie Gemini nur sagen, wohin Sie möchten, und Sie können in jeden Winkel der Welt "teleportieren"; Sie können Spiele in der MLB-App ansehen, als säßen Sie in der ersten Reihe des Stadions, während Sie mit Gemini über Spielerdaten diskutieren. Es wird später in diesem Jahr erhältlich sein.

Leichte Brille: Google hat den neuesten Prototyp der Android XR Brille vorgestellt, der leicht und tragbar ist, den ganzen Tag getragen werden kann und Kameras, Mikrofone und Lautsprecher integriert. Das optionale In-Linsen-Display kann bei Bedarf auch Informationen privat anzeigen. Das bedeutet, dass Ihr KI-Assistent wirklich "sehen" und "hören" wird, was Sie sehen und hören, und Echtzeit-, kontextbezogene Hilfe bietet, als würden Sie "Superkraft-Brillen" tragen! In einer Live-Demonstration konnte es den Namen des Cafés auf einer Kaffeetasse identifizieren, Ihnen bei der Navigation helfen, eine Kaffeereservierung vornehmen und sogar Echtzeit-Cross-Language-Übersetzung durchführen. Google kündigte an, dass Warby Parker und Gentle Monster zu den ersten Brillenmarken gehören werden, die mit Android XR zusammenarbeiten. Zukünftig werden Sie stilvolle KI-Brillen tragen können, die zu Ihrem Stil passen, und Entwickler werden ebenfalls später in diesem Jahr mit der Entwicklung für die Brillenplattform beginnen.

Sonstiges

Gemma 3n: Ein ultraleichtes multimodales Modell (unterstützt Text, Bild, Audio, Video), das speziell für Smartphones und Edge-Geräte entwickelt wurde.

Lyria RealTime: Interaktives Musik-Großsprachmodell, unterstützt Live-Auftritte und kann über API feinabgestimmt werden.

MedGemma & SignGemma: Zwei offene Fachmodelle, die jeweils für die medizinische Bildanalyse und die Gebärdensprachübersetzung verwendet werden.

Agentic Colab: Eine Notebook-Umgebung, die Code selbst reparieren und Aufgaben automatisieren kann.

Gemini Code Assist 2.5: Kostenloser Programmierassistent und Code-Review-Agent, unterstützt jetzt einen Kontext von 2 Millionen Tokens.

Firebase Studio: KI-Arbeitsbereich, der Figma-Designs in Full-Stack-Anwendungen umwandelt und das Backend automatisch einrichtet.

Stitch: Kann UI-Designs und Frontend-Code basierend auf Beschreibungen oder Bildern generieren.

Google AI Studio Upgrade: Integriert Gemini 2.5 Pro, Imagen 4 und Veo 3 direkt im Editor und bietet das GenAI SDK.

Neue Gemini API Funktionen: Einschließlich nativer Audioausgabe, Echtzeit-API, asynchronen Funktionsaufrufen, Computernutzungs-API, URL-Kontext und MCP-Unterstützung.

Project Beam: Nachfolger des Starline-Projekts, entwickelt in Zusammenarbeit mit HP zur Entwicklung von 3D-Videoanruf-Hardware.

Project Astra Upgrade: Ein aktiver multimodaler Assistent, der sehen, hören und sprechen kann.

Das oben Genannte ist eine kurze Zusammenfassung der auf dieser Google-Konferenz veröffentlichten Inhalte.

Schlussbemerkungen

Erstens zeigt dies deutlich, wie Google seine AI-Ökosystem mit aller Kraft entwickelt. Wenn Apple in der Vergangenheit für sein hervorragend koordiniertes Geräte-Ökosystem bekannt war, hebt Google dieses Konzept nun durch KI auf eine neue Ebene. Konkret: Gemini kann jetzt proaktiv innerhalb des Systems arbeiten.

Darüber hinaus ist Gemini dank seines über alle Produkte hinweg koordinierten nativen Sprachmoduls tiefer in fast alle Google-Produkte integriert. Ob Google Watch, XR-Brillen oder Pixel-Telefone, Gemini passt sich perfekt an und bietet entsprechende erweiterte Funktionen basierend auf den Geräteeigenschaften (z. B. die Kartenüberlagerungsfunktion in XR-Geräten, der Effekt ist erstaunlich!).

Wenn Apple also früher die Vernetzung aller Geräte über iCloud erreicht hat, geht Google nun noch einen Schritt weiter.

Während der Pressekonferenz erwähnte der CEO von Google DeepMind und Nobelpreisträger Demis Hassabis, dass sie hart daran arbeiten, Gemini zu einem "Weltmodell" zu erweitern. Er definierte es als "ein Modell, das durch die Simulation verschiedener Aspekte der Welt Pläne erstellen und neue Erfahrungen imaginieren kann, genau wie ein Gehirn". Google arbeitet intern definitiv daran; dies ist der ultimative Zug, um AGI zu erreichen.

Google, der König kehrt zurück.

Explosion! Google I/O Konferenz König kehrt zurück: Gemini "Weltmodell" taucht auf, Suche erhält "Gehirntransplantation", Erstellen Sie Originalfilme mit einem Satz

Kurz-URL teilen