Compilación | 核子可乐、Tina
Recientemente, el legendario ingeniero de Google, Jeff Dean, hizo una audaz predicción en una entrevista: en un año, tendremos sistemas de IA capaces de operar 24/7 con las capacidades de un "ingeniero junior".
Jeff Dean es una figura legendaria en la computación moderna, habiendo liderado numerosos avances en sistemas distribuidos a gran escala e inteligencia artificial en Google. No solo es cofundador del proyecto Google Brain, sino que también impulsó sucesivamente el nacimiento de sistemas clave como MapReduce, Bigtable, Spanner y TensorFlow. Desde 2018, se desempeñó como jefe de Google AI, y en 2023, tras la fusión de DeepMind y Google Brain, se convirtió en Científico Jefe de Google. Desde su participación en el artículo de BERT y el liderazgo en el desarrollo de TPU, hasta el impulso de la evolución de la arquitectura fundamental de IA de Google, Dean ha sido testigo y protagonista de casi todos los puntos críticos del desarrollo de IA en Google.
Como una de las figuras más influyentes en el mundo de la tecnología, las declaraciones de Jeff Dean rápidamente generaron una gran discusión en la industria. Aunque anteriormente muchos expertos, incluido Sam Altman, habían expresado puntos de vista similares, las palabras de Jeff Dean tienen un peso significativamente diferente. Como dijo un internauta: Comparado con Sam Altman, que siempre está "vendiendo" algún concepto, Jeff Dean es más como un científico informático con los pies en la tierra; cada palabra que pronuncia es más rigurosa y profunda, y merece nuestra atención y reflexión serias.
Aunque el impacto real de esta revolución en el mercado laboral de los programadores aún no se ha manifestado, varios indicios sugieren que la profesión de desarrollo de software podría experimentar una profunda transformación en los próximos años. Los ingenieros de IA no solo son capaces de "escribir código"; poseen una continuidad y un potencial de escalabilidad inigualables por los ingenieros humanos, y esto, tal vez, sea solo el comienzo.
Para ayudar a todos a comprender mejor el juicio y los puntos de vista de Jeff Dean, también hemos traducido el contenido de su entrevista. A continuación se presenta el texto original (solo se ha ajustado el orden de algunas preguntas para facilitar la lectura):
La Evolución de la IA y el Paisaje de la Industria
Bill Coughran: Como Científico Jefe de Alphabet, comencemos nuestra conversación con Jeff con este tema: Muchos amigos aquí están claramente interesados en la IA y han estado siguiendo su desarrollo. Google ha contribuido con gran parte de la base subyacente en la que se asienta la industria, especialmente la arquitectura Transformer. Entonces, ¿cómo ve la dirección del desarrollo dentro de Google y en toda la industria de la IA hoy?
Jeff Dean: Creo que el campo de la IA se ha estado gestando durante mucho tiempo, es solo que realmente ha entrado en la conciencia pública en los últimos tres o cuatro años. En realidad, a partir de 2012, 2013, la gente ya estaba utilizando estas redes neuronales, que en ese momento parecían masivas, para resolver diversos problemas interesantes. Los mismos algoritmos eran aplicables a tareas visuales, de voz y de lenguaje. Este fue un logro notable y permitió que el aprendizaje automático reemplazara gradualmente los métodos tradicionales diseñados a mano como la forma principal de resolver estos problemas.
Y ya en 2012, estábamos centrados en una pregunta: ¿cómo escalar y entrenar redes neuronales extremadamente grandes? Entrenamos una red neuronal 60 veces más grande que otros modelos en ese momento, utilizando 16,000 núcleos de CPU, porque ese era el único hardware que tenían los centros de datos de Google en ese momento. Obtuvimos muy buenos resultados. Esto nos convenció de que escalar este método realmente funciona. Posteriormente aparecieron más y más pruebas, y las mejoras de hardware también nos ayudaron a mejorar nuestras capacidades de escalamiento, lo que nos permitió entrenar modelos más grandes y procesar conjuntos de datos más grandes.
Solíamos tener un lema: "Modelos más grandes, más datos, mejores resultados". Durante los últimos 12 a 15 años, esto se ha mantenido en gran medida cierto. En cuanto a las direcciones de desarrollo futuras, creo que los modelos actuales pueden lograr algunas tareas muy interesantes. Por supuesto, no pueden resolver todos los problemas, pero pueden resolver más y más problemas cada año porque los modelos en sí mismos mejoran constantemente. Tenemos mejores métodos de mejora algorítmica que nos permiten entrenar modelos más grandes con el mismo costo computacional, obteniendo capacidades más poderosas. Además, hemos tenido avances en hardware, con la capacidad computacional por unidad de hardware aumentando continuamente. También tenemos aprendizaje por refuerzo y técnicas de post-entrenamiento para mejorar los modelos y guiarlos a funcionar como esperamos. Todo esto es muy emocionante. Creo que la multimodalidad también es una tendencia importante, donde los formatos de entrada pueden ser audio, video, imágenes, texto o código, y la salida también puede abarcar estas formas. En resumen, la IA se está volviendo cada vez más útil.
Bill Coughran: Toda la industria está actualmente muy fascinada con los "agentes". ¿Cree que estos agentes son realmente útiles? Google acaba de lanzar un framework de agentes recientemente. No me refiero específicamente a Google, pero siempre siento que el hype actual en torno a los agentes es un poco teórico. Lo siento, quizás soy un poco directo al hablar...
Jeff Dean: Está bien. Creo que el campo de los agentes tiene un potencial enorme, porque vemos que a través del proceso de entrenamiento adecuado, los agentes pueden finalmente realizar muchas tareas en un entorno informático virtual que hoy requieren humanos. Por supuesto, actualmente solo pueden completar algunas tareas, y hay muchas que no pueden manejar.
Pero el camino para mejorar sus capacidades es relativamente claro: se puede hacer más aprendizaje por refuerzo para permitir que los agentes aprendan de la experiencia. De hecho, muchos productos iniciales no podían realizar la mayoría de las tareas, pero seguían siendo muy útiles para los usuarios. Creo que un progreso similar ocurrirá en el campo de los agentes robóticos físicos.
Hoy, quizás nos estemos acercando a un punto de inflexión: para entornos desordenados como esta sala de conferencias, los robots todavía no pueden adaptarse bien, pero podemos ver un camino claro donde, en los próximos años, deberían ser capaces de realizar docenas de tareas reales en salas como esta. Inicialmente, los productos robóticos capaces de realizar estas tareas serán sin duda caros. Pero luego, a través del aprendizaje experiencial, su costo se optimizará, llegando a ser una décima parte del precio original, mientras que también podrán realizar miles de tareas. Esto impulsará aún más la optimización de costos y la mejora de las capacidades tecnológicas. Por lo tanto, el desarrollo de agentes es, en general, muy emocionante.
Bill Coughran: Es cierto, solo que no podemos exigir demasiado en este momento. Otra pregunta que surge a menudo es el estado actual del desarrollo de modelos grandes. Obviamente, Google tiene Gemini 2.5 Pro y el proyecto Deep Research, y OpenAI y otras compañías también participan. Las discusiones sobre la cantidad y la dirección del desarrollo de modelos de lenguaje grandes de código abierto y cerrado en la industria nunca se han detenido. ¿Cuál es su opinión? Google ciertamente tiene una posición sólida en este campo y espera seguir dominando, pero ¿cómo ve los cambios en el panorama general?
Jeff Dean: Creo que construir los modelos más avanzados requiere mucha inversión. Por lo tanto, no habrá docenas o cientos de estos modelos en el mercado; en última instancia, solo quedarán unos pocos. Una vez que se tienen estos modelos potentes, se pueden utilizar técnicas como la destilación de conocimiento para generar modelos más ligeros que se adapten a más escenarios.
Fui coautor de esta tecnología en un momento, pero NeurIPS rechazó nuestro artículo en 2014, creyendo que era poco probable que tuviera un impacto.
Escuché que DeepSeek podría haberse beneficiado de esta tecnología. En resumen, esta es una tecnología muy práctica: cuando se tiene un modelo más fuerte,
Bill Coughran: Una pregunta rápida. ¿Usa la "programación ambiental"?
Jeff Dean: En realidad, lo probé un poco, y funcionó sorprendentemente bien.
Tenemos bastantes salas de chat de demostración en el trabajo, e incluso la comunicación de todo el proyecto Gemini se realiza prácticamente en salas de chat. Estoy en unas 200 salas de chat, y cada mañana cuando me levanto y me cepillo los dientes, recibo unas 9 notificaciones porque mis colegas de Londres ya están ocupados.
Tenemos una demostración realmente genial: puedes subir un video educativo de YouTube y luego el prompt es "Por favor, crea un juego educativo basado en este video que incluya gráficos y elementos interactivos". Aunque no siempre tiene éxito, hay aproximadamente un 30% de posibilidades de que realmente genere contenido interesante, como un juego sobre ecuaciones diferenciales, viajar a Marte o temas relacionados con las células. Esta es una señal enorme para la educación.
Las herramientas que tenemos ahora y las herramientas que tendremos en los próximos años realmente tienen la oportunidad de cambiar el mundo de manera positiva. Debemos recordar que este es nuestro objetivo.
Audiencia: Tengo mucha curiosidad por su opinión sobre el futuro de la búsqueda, especialmente dada la gran popularidad de Chrome. Chrome ya tiene credenciales de pago y credenciales de firma web, etc. ¿Ha considerado integrar Gemini directamente en Chrome, convirtiendo las aplicaciones de Chrome en aplicaciones de Gemini, en lugar de mantenerlas como aplicaciones separadas? Digo esto porque soy un empleado oficial de Google, así que por favor, considere su respuesta con cuidado.
Jeff Dean: Sí, creo que se pueden derivar muchas aplicaciones descendentes interesantes del modelo central de Gemini u otros modelos. Una de ellas es ayudarle a completar tareas observando sus operaciones en el navegador o en su ordenador de escritorio, como realizar OCR en pestañas o acceder al contenido de las pestañas originales.
Esto parece muy útil. Ya tenemos algunos resultados iniciales en esta área y hemos lanzado demostraciones públicas en formato de video, como proyectos como el asistente de IA Mariner. Los resultados específicos aún están por verse.
Audiencia: Usted mencionó anteriormente que es probable que solo queden unos pocos participantes en los modelos fundacionales, principalmente debido a los altos costos de infraestructura y la escala de inversión necesaria para mantener la tecnología de vanguardia. A medida que se desarrolla esta competencia de vanguardia, ¿hacia dónde cree que irán las cosas en última instancia? ¿Simplemente ganará quien gaste más dinero y construya el clúster más grande? ¿O se tratará de utilizar mejor la optimización de memoria unificada y los recursos existentes? ¿O dependerá en última instancia de la experiencia del usuario? ¿Hacia dónde se dirige esta carrera armamentística? ¿Es que quien alcance primero el nivel de Skynet gana?
Jeff Dean: Creo que el ganador se determinará tanto por un excelente trabajo algorítmico como por logros sobresalientes en hardware de sistema e infraestructura. No es simple decir que uno es más importante que el otro, porque en la evolución generacional de nuestros modelos Gemini, hemos visto que la importancia de las mejoras algorítmicas es comparable, o quizás incluso mayor, a la importancia de las mejoras de hardware o la inversión en más recursos computacionales.
Pero desde la perspectiva del producto, este campo aún se encuentra en sus primeras etapas. No creo que hayamos encontrado todavía ese producto estrella que miles de millones de personas usarán todos los días. Podría ser una aplicación en el campo de la educación, o podría ser una herramienta de recuperación de información similar a un motor de búsqueda, pero que aproveche al máximo las ventajas de los modelos multimodales grandes. Creo que ayudar a las personas a completar tareas en sus respectivos entornos de trabajo es lo más importante. Entonces, ¿cómo se traducirán estas ideas en formas de producto específicas? Por ejemplo, ¿cómo debería gestionar un equipo de 50 agentes virtuales? La mayoría de las veces ejecutarán las tareas correctamente, pero ocasionalmente necesitarán consultar mi opinión. Necesito darles cierta orientación. Esto es equivalente a pensar en cómo debería gestionar 50 internos virtuales. Este será un problema complejo.
Audiencia: Creo que usted es probablemente la persona más adecuada en el mundo para responder a esta pregunta: ¿Qué tan lejos cree que estamos de tener una IA que pueda trabajar 24/7 y tenga el nivel de un ingeniero junior?
Jeff Dean: Creo que está más cerca de lo que la gente imagina.
Bill Coughran: ¿Específicamente? ¿Seis semanas, o seis años?
Jeff Dean: Afirmaré que probablemente sea posible en el próximo año más o menos (I will claim that's probably possible in the next yearish).
Audiencia: Volviendo al tema de tener una IA de nivel ingeniero junior en un año. Me gustaría saber qué avances necesitamos lograr para alcanzar este objetivo. Obviamente, la capacidad de generación de código mejorará aún más, pero ¿qué más cree que se necesita? ¿Es la capacidad de usar herramientas? ¿O la capacidad de planificación de agentes?
Jeff Dean: Creo que las capacidades que necesita un ingeniero virtual van mucho más allá de simplemente escribir código en un IDE. También necesita saber cómo ejecutar pruebas, depurar problemas de rendimiento, y así sucesivamente. Sabemos cómo hacen esto los ingenieros humanos: tienen que aprender a usar varias herramientas para realizar tareas, obtener sabiduría de ingenieros más experimentados o leer mucha documentación. Creo que los ingenieros virtuales junior serán mejores en leer documentación y probar cosas constantemente en un entorno virtual. Esta parece ser una forma de mejorar sus capacidades. En cuanto a hasta dónde pueden llegar, no lo sé, pero creo que este es un camino muy prometedor.
El Importante Papel del Hardware en la IA
Bill Coughran: Eso tiene sentido. Otra tendencia notable es el desarrollo de hardware. En mi opinión, las principales empresas están desarrollando su propio hardware. Google anunció públicamente su plan TPU muy pronto, y Amazon también tiene su propia solución. Se rumorea que Meta y OpenAI están desarrollando sus propios chips. Pero actualmente, parece que solo se escucha a Nvidia en la industria, aunque ciertamente ese no es el caso en sus oficinas de Google. ¿Qué opina sobre este problema? ¿Cuán importante es el hardware especializado para estas tareas?
Jeff Dean: Claramente, el hardware centrado en la computación para tareas como el aprendizaje automático es muy importante. Me gusta llamarlos "aceleradores de álgebra lineal de menor precisión". Cada generación de hardware debe volverse más potente y estar conectada a gran escala a través de redes de ultra alta velocidad para distribuir los requisitos computacionales del modelo en tantos dispositivos de computación como sea posible. Esto es crucial. Recuerdo que ayudé a lanzar el proyecto TPU en 2013 porque en ese momento necesitábamos claramente muchos recursos computacionales de inferencia, esa fue la primera generación. La segunda generación de TPU (TPUv2) manejó tanto la inferencia como el entrenamiento porque vimos la demanda de eso. La versión que estamos utilizando ahora ya no está numerada porque es demasiado problemático. Actualmente estamos introduciendo Ironwood, planeando reemplazar la versión anterior, Trillium.
Bill Coughran: Ese nombre suena como los chips de Intel; no parecieron ir muy bien... Lo siento, quizás me he desviado del tema, hablemos de otra cosa. Tengo muchos amigos físicos que se sorprendieron un poco de que Geoffrey Hinton y sus colegas ganaran el Premio Nobel de Física. ¿Qué piensa sobre esto? Algunos físicos que conozco incluso estaban descontentos de que no físicos ganaran el Premio Nobel. ¿Qué tan lejos cree que llegará la IA finalmente en varios campos?
Jeff Dean: Creo que llegará muy lejos. Este año, mis colegas Demis y John Jumper también ganaron el Premio Nobel. Creo que esto demuestra que la IA está influyendo en muchos campos científicos. Porque fundamentalmente, la capacidad de aprender de datos interesantes es un tema importante en muchos campos científicos, que es descubrir conexiones entre las cosas y comprenderlas. Si la IA puede ayudar a lograr esto, sería genial. Después de todo, en muchos campos científicos, a menudo encontramos escenarios de simulación computacional extremadamente costosos, como pronósticos meteorológicos, dinámica de fluidos o simulaciones de química cuántica.
El enfoque actual es utilizar estos escenarios de simulación como datos de entrenamiento y entrenar una red neuronal para aproximar la función del simulador, pero la velocidad se puede aumentar 300.000 veces. Esto ha cambiado por completo la forma en que hacemos investigación científica. De repente, puedo cribar decenas de millones de moléculas en el tiempo que lleva comer; en contraste, antes tenía que ejecutar durante un año entero con recursos computacionales terribles para completar esto. Esto cambia fundamentalmente nuestro proceso de investigación científica y acelerará la velocidad del descubrimiento científico.
Bill Coughran: Quiero hacer un seguimiento rápido sobre la situación de Geoffrey Hinton. Dejó Google debido a su investigación sobre las diferencias entre la computación digital y analógica en el razonamiento y el aprendizaje. Quiero saber, ¿el hardware de inferencia futuro se moverá hacia una dirección analógica?
Jeff Dean: Ciertamente es posible. La computación analógica tiene ventajas en eficiencia energética. También creo que todavía hay mucho margen para la especialización en la computación digital para la inferencia. En general, los sistemas digitales son más fáciles de operar. Pero creo que la dirección general es: ¿cómo hacer que el hardware de inferencia sea órdenes de magnitud más eficiente que el nivel actual, diez mil, veinte mil o incluso cincuenta mil veces? Si estamos decididos a hacerlo, es completamente posible. De hecho, yo mismo estoy dedicando tiempo a investigar esto.
Audiencia: Hola, me gustaría preguntarle sobre la relación entre la experiencia del desarrollador y el hardware. Creo que el hardware TPU es excelente, pero hay una opinión en la comunidad de que CUDA u otras tecnologías son más fáciles de usar que las TPUs. ¿Qué piensa sobre esto? ¿Es algo en lo que ha estado pensando? ¿Ha recibido muchos correos electrónicos de queja enfadados?
Jeff Dean: Lo he pensado. Aunque rara vez interactúo directamente con los clientes de Cloud TPU, no hay duda de que la experiencia tiene mucho margen de mejora.
En 2018, comenzamos a desarrollar un sistema llamado Pathways, cuyo objetivo de diseño era permitirnos usar varios dispositivos informáticos y proporcionar una buena capa de abstracción. En este sistema, la asignación de dispositivos virtuales a dispositivos físicos es administrada por el sistema de tiempo de ejecución subyacente. Soportamos PyTorch y Jax.
Utilizamos principalmente Jax internamente, pero escribimos un único proceso Python de Jax que hace que parezca que corresponde a decenas de miles de dispositivos. Puede escribir código como un investigador de ML y luego ejecutarlo. Puede prototipar con cuatro, ocho, dieciséis o sesenta y cuatro dispositivos, y luego solo cambiar una constante para cambiar al backend de Pathways que admite miles o decenas de miles de chips y seguir ejecutando. La experiencia es muy buena.
Nuestro modelo Gemini más grande está impulsado por un único proceso Python que utiliza decenas de miles de chips, y funciona muy bien. Ese tipo de experiencia de desarrollador es ideal.
Lo que quiero decir es que antes no habíamos abierto esta funcionalidad a los clientes de la nube, pero acabamos de anunciar en Cloud Next que Pathways estará disponible para los clientes de la nube. De esta manera, todos podrán disfrutar de la maravillosa experiencia de controlar miles de dispositivos con un único proceso Python. Estoy de acuerdo, esto es mucho mejor que gestionar directamente 256 chips en 64 procesadores.
Audiencia: Me gusta mucho usar la API de Gemini. Sería aún mejor si pudiera usar una única clave de API en lugar de la configuración de credenciales de Google Cloud. ¿Tienen planes de unificar la pila de Google Cloud y Gemini con el proyecto Gemini? Actualmente, este último es más como una versión de prueba.
Jeff Dean: Creo que se están considerando algunas medidas de simplificación en este sentido. Este es un problema conocido, y personalmente no le dedico mucho tiempo, pero sé que Logan y otros miembros del equipo de desarrollo son conscientes de este punto de fricción. Queremos que el uso de nuestras herramientas sea fluido para los usuarios.
Se está considerando, y también se están avanzando las medidas de simplificación correspondientes. Todos somos conscientes de este problema, y aunque personalmente no le dedico mucho tiempo, sé que otros miembros del equipo de desarrolladores de Google han tomado conciencia de este punto débil y esperan que los usuarios puedan utilizar nuestras herramientas de manera más fluida.
Audiencia: Este es un momento interesante en la computación. La Ley de Moore y el escalamiento de Dennard ya no son efectivos, mientras que el escalamiento de la IA sigue creciendo frenéticamente. Usted se encuentra en una posición única para impulsar el desarrollo de estas supercomputadoras e infraestructura. Más importante aún, posee una habilidad única: comprender cómo mapear cargas de trabajo a estos sistemas. Entonces, ¿cómo cree que será el futuro de la computación? Desde una perspectiva teórica, ¿hacia qué dirección se desarrollará la infraestructura informática?
Jeff Dean: Creo que un punto obvio es que el tipo de computación que queremos ejecutar en las computadoras ha cambiado significativamente en los últimos cinco a diez años. Inicialmente, fue solo una pequeña onda, pero ahora se ha convertido en una ola furiosa. Queremos ejecutar redes neuronales a gran escala con un rendimiento extremadamente alto y un consumo de energía muy bajo, y también queremos hacer el entrenamiento de la misma manera.
El entrenamiento y la inferencia son dos cargas de trabajo completamente diferentes. Por lo tanto, creo que tiene sentido distinguirlas, y es posible que necesite soluciones diferentes o al menos ligeramente diferentes para estas dos tareas. Creo que todas las plataformas informáticas se adaptarán a esta nueva realidad, que es que su función principal es ejecutar modelos extremadamente potentes. Algunas de estas aplicaciones se realizarán en entornos de bajo consumo de energía, como los teléfonos móviles de todos.
Todos esperamos que nuestros teléfonos puedan ejecutar modelos de parámetros grandes a velocidades extremadamente rápidas, de modo que al hablar con el teléfono, pueda responder rápidamente y ayudarnos a completar diversas tareas. También ejecutaremos estos modelos en robots y vehículos autónomos. Actualmente lo hemos logrado hasta cierto punto, pero un hardware mejor facilitará la construcción de estos sistemas y también hará que los agentes encarnados en el mundo real sean más potentes. Al mismo tiempo, también esperamos ejecutar estos modelos a una escala ultra grande en los centros de datos. Además, para algunos problemas, necesitamos usar muchos recursos de computación de inferencia, mientras que para otros, no.
En resumen, necesitamos encontrar un equilibrio: para algunos problemas, debe invertir decenas de miles de veces los recursos computacionales de los problemas ordinarios, de modo que su modelo pueda ser más potente, dar respuestas más precisas, o permitirle completar tareas que no se pueden completar con solo una pequeña cantidad de computación. Pero al mismo tiempo, no deberíamos invertir tantos recursos en todos los problemas. Por lo tanto, ¿cómo hacer que el sistema funcione bien bajo restricciones de recursos? Creo que esto debería ser el resultado de la acción conjunta de hardware, software de sistema, modelos y técnicas algorítmicas (como la destilación de conocimiento), todo lo cual puede ayudarle a lograr modelos potentes con recursos computacionales limitados.
Bill Coughran: Una cosa que he notado es que la informática tradicional, al estudiar algoritmos y complejidad computacional, se basaba en el recuento de operaciones. A medida que la gente se vuelve a centrar en los detalles del diseño de hardware y sistemas, he encontrado una nueva tendencia: debemos reconsiderar factores como el ancho de banda de red, el ancho de banda de memoria, etc. Por lo tanto, creo que el análisis algorítmico tradicional debe reescribirse por completo porque los patrones de computación reales son completamente diferentes.
Jeff Dean: Mi compañero de cuarto de posgrado hizo su tesis sobre algoritmos conscientes de caché porque la notación Big O no tenía en cuenta el hecho de que algunas operaciones podrían ser 100 veces más lentas que otras. Eso es correcto. En la computación de aprendizaje automático moderna, nos preocupamos mucho por las pequeñas diferencias en el movimiento de datos; por ejemplo, el costo de mover datos de la SRAM a un acumulador podría ser un minúsculo picojulio, pero ya es mucho más alto que el costo de la computación real. Por lo tanto, hoy en día es muy importante comprender el concepto de "picojulio".
Audiencia: Ha hablado sobre la escalación del pre-entrenamiento y la escalación actual del aprendizaje por refuerzo. ¿Cómo ve la trayectoria futura de estos modelos? ¿Seguirá siendo un solo modelo que ocupe todos los recursos computacionales, o serán múltiples modelos pequeños que trabajen juntos, destilados de modelos grandes? ¿Cómo ve el futuro panorama de los modelos de IA?
Jeff Dean: Siempre he sido optimista sobre los modelos dispersos, que son estructuras con diferente experiencia en diferentes partes del modelo. Esto se basa en nuestra comprensión aproximada del cerebro biológico, y es esta estructura del cerebro humano lo que nos permite lograr muchas cosas con solo 20 vatios de potencia. Cuando nos preocupa chocar con un camión de basura al dar marcha atrás, el módulo de poesía de Shakespeare en nuestra cabeza no se activa.
Hicimos un trabajo inicial sobre modelos de mezcla de expertos (mixture-of-experts), que utilizaron de 2 a 48 expertos, y descubrimos que este modelo puede traer mejoras significativas en la eficiencia. Por ejemplo, con los mismos FLOPs de entrenamiento, la calidad del modelo mejoró de 10 a 100 veces. Esto es muy importante.
Pero creo que no hemos explorado completamente esta área porque los patrones de dispersión que se utilizan actualmente son demasiado regulares. Idealmente, me gustaría que hubiera ciertas rutas en el modelo cuyo costo computacional fuera cientos o incluso miles de veces mayor que otras rutas; al mismo tiempo, me gustaría que algunas partes del modelo tuvieran muy poca computación, mientras que otras partes fueran muy grandes. Quizás su estructura también debería ser diferente.
También quiero que los modelos puedan expandirse dinámicamente, agregando nuevos parámetros o nuevos segmentos espaciales; quizás podamos comprimir algunas partes a través del proceso de destilación, reduciéndolas a un cuarto de su tamaño original. Luego, el backend puede, como un mecanismo de recolección de basura, liberar esta parte de la memoria y asignarla a otros lugares más útiles. Para mí, este sistema de aprendizaje más orgánico y continuo tiene más potencial que los modelos fijos que tenemos hoy. El único desafío es que nuestros métodos actuales son muy efectivos, por lo que es difícil cambiar completamente los métodos existentes para implementar este nuevo patrón. Pero creo firmemente que este patrón tiene enormes ventajas sobre nuestra estructura de modelo rígida actual.
Recomendación de evento
AICon 2025 llega con fuerza, con eventos en Shanghái en mayo y Beijing en junio, una doble ciudad联动 mostrando la vanguardia de la tecnología de IA y la implementación en la industria. La conferencia se centra en la profunda integración de la tecnología y las aplicaciones, cubriendo temas como agentes de IA, multimodalidad, aplicaciones de escenarios, innovación en arquitectura de modelos grandes, infraestructura de datos inteligente, diseño de productos de IA y estrategias de expansión global. ¡Escanee el código QR para comprar boletos ahora y exploren juntos los límites de las aplicaciones de IA!