Google AI-Nuklearschlag: Upgrade aller Modelle, Gemini 2.5 erobert zwei Spitzenplätze! Alle Produkte mit KI neu gemacht, wie wird OpenAI reagieren?

BildBild

Normalerweise hört man in den Wochen vor der I/O-Konferenz nicht viel darüber, weil Google die besten Modelle in der Regel für die I/O-Konferenz aufhebt. Aber in der Gemini-Ära ist es sehr wahrscheinlich, dass Google plötzlich am Dienstag im März ihr stärkstes KI-Modell veröffentlicht oder eine Woche früher coole Durchbrüche wie AlphaEvolve ankündigt.

Denn in der Ära der großen Modelle ist es ein Beweis für die technologische Leistungsfähigkeit eines Unternehmens, die besten Modelle und Produkte so schnell wie möglich an die Nutzer zu bringen.

Bild

Um 1:00 Uhr Pekinger Zeit am 21. Mai, als mehrere Produkte auf der Google I/O 2025-Konferenz vorgestellt wurden, ertönte im Saal wiederholt enthusiastischer Applaus.

Bei dieser Vorstellung stellte der Google-CEO Sundar Pichai als Hauptredner in über einer Stunde intensiv zahlreiche Updates von Google in Bereichen wie KI, mobile Betriebssysteme und Suche vor. Bei dieser Konferenz wurde Gemini nach vorläufigen Schätzungen 95 Mal und Künstliche Intelligenz 92 Mal erwähnt.

Im Folgenden sind einige wichtige Updates von dieser Konferenz aufgeführt, beginnend auf Modellebene.

Einführung des Deep Think Reasoning-Modells und des verbesserten 2.5 Flash für Gemini 2.5 Pro

Der Höhepunkt dieser Konferenz war die Ankündigung von Google, das Deep Think Reasoning-Modell und das verbesserte 2.5 Flash für Gemini 2.5 Pro einzuführen.

Bild

Google gab auf der Konferenz bekannt, dass es mit dem Testen eines Reasoning-Modells namens „Deep Think“ für Gemini 2.5 Pro begonnen hat. DeepMind-CEO Demis Hassabis erklärte, dass das Modell „die aktuellsten Forschungsergebnisse“ verwendet, um es zu befähigen, vor der Beantwortung von Anfragen mehrere Hypothesen abzuwägen.

2.5 Pro Deep Think erzielte beeindruckende Ergebnisse beim 2025 USAMO, einem der derzeit schwierigsten Mathematik-Benchmarks. Es erzielte auch die Führung bei LiveCodeBench, einem schwierigeren Benchmark für wettbewerbsfähiges Programmieren, und erreichte einen Score von 84,0 % bei MMMU, das multimodales Reasoning testet.”

Bild

Google erklärte jedoch, dass vor einer breiten Veröffentlichung weitere eingehende Sicherheitsbewertungen und Expertenmeinungen erforderlich seien, weshalb es zunächst vertrauenswürdigen Testern über die Gemini API zur Verfügung gestellt werde.

Google veröffentlichte gleichzeitig ein leistungsstärkeres Gemini 2.5 Flash-Modell, das eine signifikante Optimierung in Bezug auf Geschwindigkeit und Effizienz erreicht: verbesserte Inferenz-Effizienz, reduzierter Token-Verbrauch und übertrifft frühere Generationen in Benchmark-Tests für multimodales Processing, Code-Generierung und langes Textverständnis.

2.5 Flash ist Googles effizientestes Hauptmodell, konzipiert für Geschwindigkeit und geringe Kosten – und es hat sich nun in mehreren Dimensionen verbessert. Es hat sich in Schlüssel-Benchmarks für Reasoning, Multimodalität, Code und langen Kontext verbessert und gleichzeitig die Effizienz weiter gesteigert, indem in unseren Bewertungen 20-30% weniger Tokens verwendet wurden.

Bild

Die offizielle Version wird Anfang Juni veröffentlicht. Derzeit können Entwickler über Google AI Studio eine Vorschau erhalten, Unternehmensanwender können sie über Vertex AI testen und normale Benutzer können sie in der Gemini-App ausprobieren.

Obwohl auf der I/O hauptsächlich die Effizienz-Durchbrüche von 2.5 Flash gezeigt wurden, kündigte Google an, das Konzept der „Denkbudgets“ (Thinking Budgets) dieses Modells in die höherwertige 2.5 Pro-Version einzuführen. Diese Funktion ermöglicht es Benutzern, den Token-Verbrauch mit der Ausgabegenauigkeit/Geschwindigkeit in Einklang zu bringen.

Darüber hinaus integriert Google das „Project Mariner“ in die Gemini API und Vertex AI. Dieses Projekt, das auf Gemini basiert, ermöglicht die Navigation und Durchführung benutzerdefinierter Aufgaben über einen Browser und wird voraussichtlich diesen Sommer für Entwickler erweitert verfügbar gemacht. Gleichzeitig führt Google über die Gemini API eine Text-to-Speech-Vorschaufunktion für die Modelle 2.5 Pro/Flash ein, die zwei Sprecherstimmen in 24 Sprachen unterstützt.

Erwähnenswert ist, dass die Gemini 2.5-Serie einige neue Funktionen einführt.

Zuerst die Verbesserungen der nativen Audioausgabe und der Live API. Die Live API hat eine Vorschau der Audio-Video-Eingabe und der nativen Audio-Ausgabe-Konversationen eingeführt, sodass Sie Konversationserlebnisse direkt aufbauen können, indem Sie ein natürlicheres und ausdrucksstärkeres Gemini verwenden.

Es ermöglicht den Benutzern auch, den Tonfall, den Akzent und den Sprechstil zu steuern. Zum Beispiel können Benutzer das Modell bitten, eine dramatische Stimme zu verwenden, wenn es eine Geschichte erzählt. Es unterstützt auch die Verwendung von Werkzeugen, um im Namen des Benutzers Suchen durchführen zu können.

Eine Reihe von frühen Funktionen, die Benutzer jetzt ausprobieren können, umfassen:

Emotionale Konversation, bei der das Modell die Emotionen in der Stimme des Benutzers erkennen und angemessen reagieren kann.

Proaktive Audio, bei der das Modell Hintergrundgespräche ignoriert und weiß, wann es reagieren muss.

Denken in der Live API, bei der das Modell die Denkfähigkeiten von Gemini nutzt, um komplexere Aufgaben zu unterstützen.

Google wird auch eine neue Text-to-Speech-Vorschaufunktion für die Versionen 2.5 Pro und 2.5 Flash veröffentlichen. Diese Funktionen unterstützen erstmals mehrere Sprecher, was Text-to-Speech mit zwei Kanälen über die native Audioausgabe ermöglicht.

Ähnlich wie bei nativen Audio-Konversationen ist die Text-to-Speech-Funktion ausdrucksstark und kann sehr subtile Nuancen erfassen, z. B. Flüstern. Sie unterstützt über 24 Sprachen und kann nahtlos zwischen Sprachen wechseln.

Zweitens die Verbesserung der Computerbedienungsfähigkeiten. Google führt die Computerbedienungsfähigkeiten von Project Mariner in die Gemini API und Vertex AI ein. Es unterstützt Multitasking, wobei bis zu 10 Aufgaben gleichzeitig ausgeführt werden können, und fügt die Funktion „Learn and Repeat“ hinzu, die es der KI ermöglicht, das automatische Ausführen wiederkehrender Aufgaben zu lernen.

Drittens eine deutliche Verstärkung des Schutzes vor Sicherheitsbedrohungen wie indirekter Prompt-Injektion. Dies bezieht sich auf böswillige Anweisungen, die in Daten eingebettet sind, die vom KI-Modell abgerufen werden. Googles Neue Sicherheitsmethoden haben die Schutzrate von Gemini gegen indirekte Prompt-Injektionsangriffe bei der Werkzeugnutzung signifikant erhöht und machen Gemini 2.5 zu unserer sichersten Modellreihe bisher.

Viertens die Erweiterung um drei nützliche Funktionen zur Verbesserung der Entwicklererfahrung:

Upgrade der Gedanken-Zusammenfassungsfunktion. Gemini API und Vertex AI haben nun eine „Gedanken-Zusammenfassungs“-Funktion für die 2.5 Pro/Flash Modelle hinzugefügt, die den ursprünglichen Denkprozess des Modells strukturiert als klares Format mit Titeln, Schlüsseldetails und Bedienungsanleitungen (wie dem Zeitpunkt des Aufrufs von Werkzeugen) ausgeben kann. Dieses Design soll Entwicklern helfen, die Entscheidungslogik des Modells intuitiver zu verstehen und die interaktive Interpretierbarkeit und die Debugging-Effizienz zu verbessern.

Erweiterung des Thinking Budget Mechanismus. Nach 2.5 Flash umfasst die Thinking Budget Funktion nun auch das 2.5 Pro Modell, was Entwicklern ermöglicht, die Qualität der Antwort und die Latenzkosten durch Anpassung der Token-Zuteilung auszubalancieren. Benutzer können die Denktiefe des Modells frei steuern und die Funktion sogar komplett ausschalten. Die offizielle Version von Gemini 2.5 Pro mit voller Thinking Budget Unterstützung wird in den nächsten Wochen veröffentlicht.

Gemini SDK-Kompatibilität mit MCP-Werkzeugen. Die Gemini API fügt native SDK-Unterstützung für MCP hinzu, was die Integration mit Open-Source-Werkzeugen vereinfacht. Google untersucht das Deployment von Hosting-Lösungen wie MCP-Servern, um die Entwicklung von Agenten-Anwendungen zu beschleunigen. Das Team wird die Modellleistung und die Entwicklungserfahrung kontinuierlich optimieren und gleichzeitig die Grundlagenforschung stärken, um die Fähigkeiten von Gemini zu erweitern. Weitere Updates folgen in Kürze.

Über die nächsten Schritte von Google Gemini sagte der CEO von Google DeepMind, Hassabis, dass sie daran arbeiten, ihr bestes Gemini-Modell zu einem „Weltmodell“ auszubauen, das wie ein menschliches Gehirn Pläne erstellen und neue Erfahrungen vorstellen kann, indem es die Welt versteht und simuliert.

KI-Modus ist die Zukunft der Google-Suche

Bild

Als eines der Kernbereiche von Google zieht jede Iteration der Google-Suche die Aufmerksamkeit der Branche auf sich.

Google gab an, dass das Gemini-Modell dazu beiträgt, die Google-Suche intelligenter, agentenbasierter und personalisierter zu machen.

Seit dem Start im letzten Jahr hat AI Overviews mehr als 1,5 Milliarden Nutzer in 200 Ländern und Regionen erreicht. Während die Nutzer AI Overviews verwenden, stellt Google fest, dass sie zufriedener mit den Suchergebnissen sind und häufiger suchen. In Googles größten Märkten wie den USA und Indien hat AI Overviews das Wachstum der Abfragetypen um über 10% vorangetrieben, und diese Wachstumsrate steigt im Laufe der Zeit weiter an.

Pichai nannte es eine der erfolgreichsten Produktstarts in der Suche der letzten zehn Jahre.

Für Nutzer, die ein durchgängiges KI-Sucherlebnis wünschen, führt Google nun einen brandneuen KI-Modus ein. Dieser gestaltet das Sucherlebnis völlig neu. Mit fortgeschritteneren Schlussfolgerungsfähigkeiten können Nutzer im KI-Modus längere und komplexere Abfragen stellen.

Tatsächlich sind die Abfragen von frühen Testern zwei- bis dreimal länger als herkömmliche Suchabfragen, und Nutzer können auch durch Folgefragen tiefer forschen. All diese Funktionen sind direkt in einem neuen Tab innerhalb der Suche verfügbar.

Pichai sagte: „Ich benutze die Google-Suche häufig, und sie hat die Art und Weise, wie ich die Google-Suche benutze, völlig verändert. Ich freue mich, Ihnen mitteilen zu können, dass der KI-Modus ab heute in den USA für alle Nutzer verfügbar sein wird. Mit unserem neuesten Gemini-Modell sind unsere KI-Antworten nicht nur von der Qualität und Genauigkeit, die Sie von der Google-Suche erwarten, sondern auch die schnellsten in der Branche. Ab dieser Woche wird Gemini 2.5 auch in der Google-Suche in den USA verfügbar sein.“

Bild

Vorstellung des Videomodells Veo 3

Im Bereich der Multimodalität kündigte Google die bevorstehende Einführung ihres neuesten fortschrittlichen Videomodells Veo 3 an, das nun über native Audioerzeugungsfunktionen verfügt. Google wird auch Imagen 4 vorstellen, das neueste und leistungsstärkste Bildgenerierungsmodell von Google. Beide Modelle sind in der Gemini-Anwendung verfügbar und eröffnen eine völlig neue kreative Welt.

Google bietet Filmemachern diese Möglichkeiten mit einem neuen Tool namens Flow. Benutzer können Filmclips erstellen und kurze Segmente zu längeren Szenen erweitern.

Prompt: Eine weise alte Eule schwebt hoch oben und späht durch die mondbeleuchteten Wolken über dem Wald. Diese weise alte Eule kreist vorsichtig um die Lichtung und blickt auf den Waldboden. Nach einem Moment stürzt sie auf den mondbeschienenen Pfad und landet neben einem Dachs. Audio: Flügelschlagen, Vogelrufe, lautes und angenehmes Rauschen des Windes, und intermittierendes Summen, Brechen von Ästen unter den Füßen und Quaken. Dies ist ein leichtes Orchesterstück, mit durchgehend Holzbläsern, einem fröhlichen und optimistischen Rhythmus, voller unschuldiger Neugier.

Eine weise alte Eule und ein nervöser Dachs sitzen auf dem mondbeschienenen Waldweg. „Sie haben heute einen ‚Ball‘ dagelassen. Er sprang höher als ich springen konnte“, stammelte der Dachs und bemühte sich, die Bedeutung zu verstehen. „Was ist das für Magie?“, rief die Eule nachdenklich. Audio: Rufen der Eule, nervöses Fiepen des Dachses, Rauschen der Blätter, Zirpen der Grillen.

Eine weise alte Eule fliegt aus dem Bild, und ein nervöser kleiner Dachs rennt in die andere Richtung. Im Hintergrund huscht ein Eichhörnchen vorbei und raschelt mit trockenen Herbstblättern. Audio: Vogelrufe, lautes Rauschen fallender Blätter, und intermittierendes Summen, Geräusche von brechenden Ästen unter den Füßen, und das Geräusch eines Eichhörnchens, das sich durch trockene gefallene Blätter bewegt. In der Ferne sind das Rufen der Eule, das nervöse Fiepen des Dachses, das Rauschen der Blätter und das Zirpen der Grillen zu hören, diese Geräusche voller unschuldiger Neugier.

Coding Assistant Jules startet öffentliche Beta

Auf der Konferenz gab Google bekannt, dass Jules offiziell in die öffentliche Beta-Phase eintritt und Entwickler weltweit es direkt ausprobieren können.

Jules ist ein asynchroner, agentenbasierter Coding Assistant, der sich direkt in die bestehenden Codebasen von Entwicklern integriert. Er klont die Codebasis des Entwicklers in eine sichere Google Cloud Virtual Machine (VM), versteht den gesamten Kontext des Projekts und führt Aufgaben aus wie: Tests schreiben, neue Features bauen, Audio-Update-Logs bereitstellen, Bugfixes durchführen und Abhängigkeitsversionen ändern.

Jules läuft asynchron, sodass Entwickler sich auf andere Aufgaben konzentrieren können, während es im Hintergrund läuft. Nach Abschluss zeigt es seinen Plan, den Denkprozess und die Unterschiede der vorgenommenen Änderungen. Jules ist standardmäßig privat; es verwendet nicht den privaten Code des Benutzers zum Training, und die Daten des Benutzers bleiben in der Ausführungsumgebung isoliert.

Jules verwendet Gemini 2.5 Pro, was ihm ermöglicht, einige der fortschrittlichsten Coding-Reasoning-Techniken von heute zu nutzen. In Kombination mit seinem Cloud-VM-System kann es komplexe Multi-Datei-Änderungen und gleichzeitige Aufgaben schnell und präzise bearbeiten.

Konkret, was kann Jules tun?

Arbeitet mit echten Codebasen: Jules benötigt keine Sandbox. Es kann den gesamten Kontext bestehender Projekte nutzen, um Änderungen intelligent abzuleiten.

Parallele Ausführung: Aufgaben laufen innerhalb von Cloud-VMs und ermöglichen so die gleichzeitige Ausführung. Es kann mehrere Anfragen gleichzeitig bearbeiten.

Sichtbarer Workflow: Jules zeigt Ihnen seinen Plan und seine Begründung, bevor er Änderungen vornimmt.

GitHub-Integration: Jules arbeitet direkt im GitHub-Workflow des Benutzers. Kein Kontextwechsel oder zusätzliche Einrichtung erforderlich.

Benutzerkontrolle: Ändern Sie den präsentierten Plan vor, während und nach der Ausführung, um die Kontrolle über Ihren Code zu behalten.

Audio-Zusammenfassungen: Jules liefert Audio-Änderungsprotokolle der jüngsten Commits und wandelt Ihre Projekthistorie in kontextbezogene Änderungsprotokolle um, die Sie anhören können.

Project Astra, Prototyp von Googles allgemeinem KI-Assistenten

Auf der Google I/O Entwicklerkonferenz im letzten Jahr war eine der interessantesten Demos Project Astra, eine frühe Version einer multimodalen KI, die ihre Umgebung in Echtzeit erkennen und relevante Fragen konversationell beantworten konnte. Während die Demo einen Einblick in Googles Pläne für einen leistungsstärkeren KI-Assistenten gab, betonte das Unternehmen vorsichtig, dass das, was wir sahen, nur eine „Forschungsvorschau“ war.

Doch ein Jahr später hat Google die Vision für Project Astra dargelegt, in der Hoffnung, dass es eine zukünftige Version von Gemini antreiben wird und sie zu einem „universellen KI-Assistenten“ macht. Um dieses Ziel zu erreichen, hat Project Astra einige bedeutende Upgrades erhalten. Google hat Astras Speicher aufgerüstet – die Version, die wir letztes Jahr sahen, konnte jeweils nur 30 Sekunden „erinnern“ – und Computersteuerungsfunktionen hinzugefügt, sodass Astra nun komplexere Aufgaben ausführen kann.

Dieser multimodale, alles sehende Roboter ist kein echtes Verbraucherprodukt und wird kurzfristig außer einer kleinen Anzahl von Testern niemandem zugänglich sein. Astra repräsentiert Googles größter, wildester und ehrgeizigster Traum davon, wie KI der Menschheit in Zukunft dienen kann. Greg Wayne, Forschungsdirektor bei Google DeepMind, erklärte, dass er Astra als „das Konzeptauto für einen universellen KI-Assistenten“ betrachtet.

Letztendlich werden die in Astra verfügbaren Funktionen auf Gemini und andere Anwendungen portiert. Dazu gehört bereits die Arbeit des Teams an der Sprachausgabe, dem Speicher und einigen grundlegenden Computerbenutzungsfunktionen. Während diese Funktionen zunehmend in den Mainstream gelangen, findet das Astra-Team neue Arbeitsrichtungen.

Project Aura Smart Glasses sind zurück

Werfen wir einen Blick auf die Hardware. Es scheint, die Ära der Google Smart Glasses ist zurück. Heute gaben Google und Xreal auf der Konferenz eine strategische Partnerschaft bekannt, um gemeinsam ein neues Android XR-Gerät namens Project Aura zu entwickeln.

Dies ist das zweite Gerät, das seit der Veröffentlichung der Android XR-Plattform im Dezember letzten Jahres offiziell vorgestellt wurde. Das erste war Samsungs Project Moohan, aber das ist ein XR-Headset, das Apple Vision Pro ähnlicher ist. Project Aura hingegen pflegt eine enge Beziehung zu den anderen Produkten von Xreal. Der technisch korrekte Begriff wäre „optisches See-Through XR“-Gerät. Umgangssprachlich ist es eine immersive Smart Glasses.

Bild

Xreals Brillen, wie die Xreal One, sehen ein wenig klobig aus, als wären zwei Mini-Fernseher in eine normale Sonnenbrille eingebettet. Xreals frühere Brillen konnten mit Handys oder Laptops verbunden werden, um Inhalte auf dem Bildschirm anzuzeigen, sei es eine laufende Sendung oder vertrauliche Dokumente, die man im Flugzeug bearbeiten wollte. Ihr Vorteil ist, dass Benutzer die Opazität anpassen können, um die Umgebung zu sehen (oder auszublenden). Project Aura verfolgt dieselbe Philosophie.

Google hat auf der Konferenz jedoch keine weiteren Informationen zu dieser Hardware preisgegeben. Xreal-Sprecher Ralph Jodice erklärte, dass weitere Informationen auf der Augmented World Expo nächsten Monat veröffentlicht werden. Einige bekannte Informationen deuten darauf hin, dass Gemini integriert sein wird und ein größeres Sichtfeld bietet. Auf den Produktrenderings sehen wir Kameras an den Scharnieren und am Nasensteg sowie Mikrofone und Tasten an den Bügeln.

Dies deutet darauf hin, dass die Hardware im Vergleich zu Xreals bestehenden Geräten aufgerüstet wird. Project Aura wird von einem Qualcomm-Chipsatz angetrieben, der für XR optimiert ist. Wie bei Project Moohan hofft Project Aura auch, dass Entwickler jetzt mit dem Bau von Anwendungen und Anwendungsfällen beginnen, damit sie vor der tatsächlichen Veröffentlichung eines Verbraucherprodukts bereit sind. Apropos, Google und Xreal gaben in einer Pressemitteilung an, dass für Headsets entwickelte Android XR-Anwendungen problemlos auf andere Geräte wie Project Aura portiert werden können.

Interessanterweise ähnelt Googles Strategie für die nächste Ära der Smart Glasses der Art und Weise, wie es Wear OS ursprünglich eingeführt hat – Google stellt die Plattform bereit, und Drittanbieter sind für die Hardware verantwortlich. Obwohl Details rar sind, wird dies das zweite offizielle Gerät sein, das auf der Android XR-Plattform eingeführt wird.

Haftungsausschluss: Dieser Artikel wurde von InfoQ übersetzt und zusammengestellt und repräsentiert nicht die Ansichten der Plattform. Die unbefugte Reproduktion ist untersagt.

Empfohlene Artikel heute

Jeff Dean: KI wird Junior-Ingenieure innerhalb eines Jahres ersetzen, Netizens: „Altman malt nur große Bilder, was Jeff sagt, ist tödlich“

Überraschung! ByteDance Seed hat im CCPC-Finale nur eine Anmeldeaufgabe gelöst, während DeepSeek R1 auf Null blieb?

Borg-Planung hat sich entwickelt! Googles super KI-Agent ist da: Kann Algorithmen entwerfen, die Systemeffizienz verbessern, unterstützt von Terence Tao, Netizens bezeichnen ihn als den König der Wissenschaft!

Veranstaltungsempfehlung

Die AICon 2025 kommt stark, Shanghai im Mai, Peking im Juni, zwei Städte联动, ein umfassender Überblick über die KI-Technologie-Grenze und Industrieumsetzung. Die Konferenz konzentriert sich auf die tiefe Integration von Technologie und Anwendungen und vereint Themen wie AI Agent, Multimodal, Szenen-Anwendungen, Architekturinnovation großer Modelle, intelligente Dateninfrastruktur, AI-Produktdesign und Überseestrategien. Scannen Sie jetzt den QR-Code, um Tickets zu kaufen und gemeinsam die Grenzen der KI-Anwendungen zu erkunden!

Bild

Hauptkategorie:Künstliche Intelligenz

Unterkategorien:Google I/OErweiterte RealitätKI-ModelleGoogle SucheGemini


Vorheriger:Explosion! Google I/O Konferenz König kehrt zurück: Gemini "Weltmodell" taucht auf, Suche erhält "Gehirntransplantation", Erstellen Sie Originalfilme mit einem Satz

Nächster:Google | Fehlersuche in RAG-Systemen: Ein Framework zur selektiven Generierung zur Steigerung der RAG-Genauigkeit um 10%

Kurz-URL teilen