Google AI Nuclear: ¡Actualizando todos los modelos, Gemini 2.5 encabeza dos listas! Todos los productos rehechos con IA, ¿cómo responderá OpenAI?

ImagenImagen

Normalmente, en las semanas previas a la conferencia I/O, no se suele escuchar mucho sobre ella porque Google generalmente guarda sus mejores modelos para anunciarlos en el evento. Pero en la era de Gemini, es muy probable que Google lance de repente sus modelos de inteligencia artificial más potentes un martes cualquiera de marzo, o anuncie avances geniales como AlphaEvolve con una semana de antelación.

Porque en la era de los modelos grandes, poner los mejores modelos y productos a disposición de los usuarios lo antes posible es una demostración de la capacidad tecnológica de una empresa.

Imagen

A la una de la madrugada (hora de Pekín) del 21 de mayo, mientras se lanzaban varios productos en la conferencia Google I/O 2025, una y otra vez sonaron aplausos entusiastas en el lugar.

En esta presentación, el CEO de Google, Sundar Pichai, como orador principal, dedicó más de una hora a presentar de forma intensiva numerosas actualizaciones de Google en áreas como la IA, los sistemas operativos móviles y la búsqueda. En esta única conferencia, según las estadísticas preliminares, Gemini fue mencionado 95 veces y la inteligencia artificial 92 veces.

A continuación, se presentan algunas de las actualizaciones importantes de esta conferencia, comenzando por el nivel del modelo.

Introduciendo el modelo de razonamiento Deep Think y una mejor versión 2.5 Flash para Gemini 2.5 Pro

El momento cumbre de esta conferencia fue el anuncio de Google de la introducción del modelo de razonamiento Deep Think y una mejor versión 2.5 Flash para Gemini 2.5 Pro.

Imagen

Google anunció en la conferencia que ha comenzado a probar un modelo de razonamiento llamado “Deep Think” para Gemini 2.5 Pro. El CEO de DeepMind, Demis Hassabis, afirmó que el modelo utiliza “los resultados de investigación más vanguardistas”, lo que le permite sopesar múltiples hipótesis antes de responder a las consultas.

Gemini 2.5 Pro Deep Think logró resultados impresionantes en el USAMO 2025, uno de los puntos de referencia matemáticos más difíciles en la actualidad. También obtuvo la ventaja en LiveCodeBench, un punto de referencia más difícil para la programación competitiva, y logró una puntuación del 84.0% en MMMU, que evalúa el razonamiento multimodal.”

Imagen

Sin embargo, Google declaró que antes de un lanzamiento general, se necesitan evaluaciones de seguridad más profundas y opiniones de expertos, por lo que primero se abrirá a probadores de confianza a través de la API de Gemini.

Google también lanzó un modelo Gemini 2.5 Flash más potente, que logra una optimización significativa en velocidad y eficiencia: mayor eficiencia de inferencia, menor consumo de tokens, y supera a las generaciones anteriores en pruebas de referencia para procesamiento multimodal, generación de código y comprensión de texto largo.

2.5 Flash es el modelo más eficiente de Google, diseñado para la velocidad y el bajo coste, y ahora ha mejorado en varias dimensiones. Ha mejorado en puntos de referencia clave para el razonamiento, la multimodalidad, el código y el contexto largo, al mismo tiempo que se ha vuelto aún más eficiente, utilizando entre un 20% y un 30% menos de tokens en nuestras evaluaciones.

Imagen

La versión oficial se lanzará a principios de junio. Actualmente, los desarrolladores pueden obtener una vista previa a través de Google AI Studio, los usuarios empresariales pueden experimentarla a través de Vertex AI y los usuarios comunes pueden probarla en la aplicación Gemini.

Aunque la conferencia I/O mostró principalmente el avance en eficiencia del 2.5 Flash, Google anunció que introducirá el concepto de “presupuestos de pensamiento” (Thinking Budgets) de este modelo en la versión 2.5 Pro de mayor nivel. Esta función permite a los usuarios equilibrar el consumo de tokens con la precisión/velocidad de salida.

Además, Google está integrando el “Proyecto Mariner” en la API de Gemini y Vertex AI. Este proyecto, desarrollado sobre la base de Gemini, permite la navegación y la realización de tareas especificadas por el usuario a través de un navegador, y se espera que se amplíe a los desarrolladores este verano. Al mismo tiempo, Google también está lanzando una función de vista previa de texto a voz para los modelos 2.5 Pro/Flash a través de la API de Gemini, que admite dos voces de locutor en 24 idiomas.

Vale la pena mencionar que la serie Gemini 2.5 introduce varias funciones nuevas.

Primero, mejoras en la salida de audio nativa y en la API Live. La API Live ha lanzado una vista previa de la entrada de audio y video y de las conversaciones con salida de audio nativa, por lo que puede construir experiencias conversacionales directamente, utilizando un Gemini más natural y expresivo.

También permite a los usuarios controlar su tono, acento y estilo de habla. Por ejemplo, los usuarios pueden hacer que el modelo use una voz dramática al contar una historia. También admite el uso de herramientas para poder realizar búsquedas en nombre del usuario.

Ahora, una serie de funciones tempranas que los usuarios pueden probar incluyen:

Conversación emocional, donde el modelo puede detectar la emoción en la voz del usuario y responder adecuadamente.

Audio proactivo, donde el modelo ignorará las conversaciones de fondo y sabrá cuándo responder.

Pensar en la API Live, donde el modelo aprovecha las capacidades de pensamiento de Gemini para admitir tareas más complejas.

Google también lanzará una nueva función de vista previa de texto a voz para las versiones 2.5 Pro y 2.5 Flash. Estas funciones admiten varios hablantes por primera vez, lo que permite texto a voz de dos canales a través de la salida de audio nativa.

Al igual que las conversaciones de Native Audio, la función de texto a voz es expresiva y puede capturar matices muy sutiles, como susurros. Admite más de 24 idiomas y puede cambiar sin problemas entre idiomas.

En segundo lugar, la mejora de las capacidades de operación informática. Google está introduciendo las capacidades de operación informática de Project Mariner en la API de Gemini y Vertex AI. Permite el procesamiento multitarea, ejecutando hasta 10 tareas simultáneamente, y agrega la función

Etiqueta Principal:Inteligencia Artificial

Etiquetas Secundarias:Google I/ORealidad ExtendidaModelos de IABúsqueda de GoogleGemini


Anterior:¡Explosión! Google I/O Conference El Rey Regresa: Gemini "Modelo Mundial" Emerge, Search "Cambia el Cerebro", Crea Películas Originales con una Oración

Siguiente:Google | Análisis de Errores en Sistemas RAG: Propuesta de un Marco de Generación Selectiva para Aumentar la Precisión de RAG en un 10%

Compartir URL Corta