Entrevista con Duan Nan de Step Ahead: "Podríamos estar tocando el límite superior de la capacidad de Diffusion"

图片

"Se espera que surjan modelos fundacionales en el dominio visual con capacidades de comprensión más profundas (que podrían traer un 'momento GPT-3' para la visión) en los próximos 1-2 años."

Entrevista | Tang Xiaoyin, Editor Ejecutivo de CSDN & «The New Programmer»

Invitado | Duan Nan, Tech Fellow de Step Ahead

Editor responsable | Zhang Hongyue

Producido por | AI Technology Base Camp (ID: rgznai100)

En esta ola de innovación de contenido visual impulsada por IA, Duan Nan, Tech Fellow de Step Ahead y ex Investigador Senior en Microsoft Research Asia, se encuentra a la vanguardia de la exploración. Su equipo lanzó en código abierto dos importantes modelos de generación de video en febrero y marzo de este año: el modelo de texto a video Step-Video-T2V con 30 mil millones de parámetros, y el modelo de imagen a video Step-Video-TI2V con 30 mil millones de parámetros entrenado a partir de este, los cuales han generado una amplia atención en el campo de la generación de video con IA.

Duan Nan señala claramente que, aunque las tecnologías actuales de generación de video (como los modelos Diffusion) pueden producir segmentos visuales impresionantes, es posible que estemos tocando el "techo" de sus capacidades. Un verdadero avance revolucionario en modelos fundacionales de video, e incluso multimodales, con capacidades de comprensión profunda, aún está en período de gestación.

图片

Duan Nan, Tech Fellow de Step Ahead, lidera un equipo de investigación que construye modelos fundacionales multimodales centrados en el lenguaje y el video. Anteriormente, fue Investigador Principal Senior y Gerente de Investigación del Equipo de Procesamiento del Lenguaje Natural en Microsoft Research Asia (2012-2024). El Dr. Duan es tutor doctoral adjunto en la Universidad de Ciencia y Tecnología de China y en la Universidad Jiaotong de Xi'an, y profesor adjunto en la Universidad de Tianjin. Su investigación se centra principalmente en el procesamiento del lenguaje natural, la inteligencia de código, los modelos fundacionales multimodales, los agentes, entre otros.

En la 2025 Global Machine Learning Technology Conference (ML-Summit) celebrada del 18 al 19 de abril, Duan Nan pronunció un discurso principal sobre "Avances, desafíos y futuro de los modelos fundacionales de generación de video" y posteriormente concedió una entrevista en profundidad en vivo a CSDN.

Duan Nan predijo que se espera que surjan modelos fundacionales en el dominio visual con capacidades de comprensión más profundas (que podrían traer un "momento GPT-3" para la visión) en los próximos 1-2 años.

¿Por qué tiene este juicio? En este diálogo de gran cantidad de información, Duan Nan compartió varias ideas centrales sobre el futuro de la generación de video y la IA multimodal:

Singularidad de la Ley de Escalamiento de Video: A diferencia de los modelos de lenguaje, el rendimiento de la Ley de Escalamiento en la capacidad de generalización de los modelos de video Diffusion actuales (incluso alcanzando 30 mil millones de parámetros) no es significativo, pero su capacidad de memoria es muy fuerte. Parámetros de tamaño medio (como 15 mil millones) pueden lograr un mejor equilibrio entre eficiencia y rendimiento.

Más allá de la "Generación" hacia la "Comprensión": La generación de video convencional actual es similar a una "traducción de texto a visual", con límites. El verdadero avance radica en la necesidad de que los modelos posean capacidades de comprensión visual profunda, no solo generación de píxeles. Esto requiere un cambio en el paradigma de aprendizaje, desde el "aprendizaje de mapeo" hacia el "aprendizaje de predicción causal" similar a los modelos de lenguaje.

Fusión de AR y Diffusion: La tendencia futura de la arquitectura de modelos podría ser la fusión de modelos Autoregresivos (AR) y Diffusion, con el fin de combinar las ventajas de ambos y servir mejor a la comprensión y generación de contenido de video e incluso multimodal.

Los datos siguen siendo la piedra angular y el cuello de botella: Los datos naturales de alta calidad, a gran escala y diversificados (en lugar de depender excesivamente de datos sintéticos para el entrenamiento básico) son cruciales para construir modelos fundacionales potentes. La complejidad y el costo del procesamiento y anotación de datos son desafíos enormes.

El momento del "Aprendizaje Few-Shot" para la visión: La capacidad clave de la próxima generación de modelos fundacionales visuales será una fuerte capacidad de Aprendizaje Few-Shot (pocos ejemplos), lo que les permitirá adaptarse y resolver rápidamente nuevas tareas visuales, similar a la transformación que GPT-3 trajo a la PNL.

La usabilidad y la influencia son igualmente importantes: La innovación tecnológica es importante, pero la facilidad de uso del modelo y si puede ser utilizado en la práctica por una amplia gama de desarrolladores y creadores son métricas clave de su influencia, y también objetivos que la investigación debe tener en cuenta.

El futuro de la IA y la IA Corpórea: La mejora en las capacidades de comprensión de video proporcionará capacidades de percepción clave para aplicaciones de IA que necesitan interactuar con el mundo físico, como la IA corpórea y la robótica.

Esta entrevista le llevará a un análisis profundo del pensamiento de vanguardia, los cuellos de botella técnicos y el plan futuro en el campo de la generación de video e incluso la IA multimodal. Ya sea un investigador de IA, un desarrollador o un observador curioso sobre la tecnología futura, podrá obtener una inspiración profunda de ella.

A continuación, la entrevista oficial con el Sr. Duan Nan: (El texto ha sido optimizado apropiadamente por el editor para facilitar la lectura)

CSDN: Hemos invitado al tan esperado Sr. Duan Nan, quien ahora se desempeña como Tech Fellow en Step Ahead. Sr. Duan, por favor, salude a todos primero y haga una breve presentación.

Duan Nan: Hola a todos, mi nombre es Duan Nan. Actualmente trabajo en Step Ahead, principalmente a cargo de proyectos relacionados con la generación de video. Antes de esto, trabajé en Microsoft Research Asia durante más de diez años, dedicándome a la investigación en procesamiento del lenguaje natural. Hoy, es un gran honor para mí comunicarme con ustedes en este formato en vivo, es la primera vez para mí.

CSDN: ¿Es esta su primera vez participando en una transmisión en vivo?

Duan Nan: Sí, realmente es la primera vez.

CSDN: Entonces es un gran honor que el debut en vivo del Sr. Duan sea en la sala de transmisión en vivo de CSDN.

Duan Nan: Es mi honor.

CSDN: Me di cuenta de que su título en Step Ahead es "Tech Fellow", lo cual es relativamente raro en startups, generalmente más común en empresas extranjeras. ¿Podría hablar sobre la consideración detrás de este título?

Duan Nan: La forma del título no necesita preocuparle demasiado. En esencia, sigo siendo un investigador, continuando profundizando en áreas que me interesan, solo he cambiado de plataforma de trabajo.

CSDN: El Sr. Duan presentó en la Conferencia Global de Tecnología de Aprendizaje Automático de 2025 sobre "Avances, desafíos y futuro de los modelos fundacionales de generación de video", que también son sus últimos resultados preparados con esfuerzo adicional. ¿Podría presentar brevemente el contenido central de la charla, especialmente los puntos clave en los que espera que todos se centren?

Duan Nan: El informe de hoy es un resumen por etapas de los proyectos en los que he estado trabajando en Step Ahead durante el último año. Antes, cuando estaba en Microsoft Research Asia, mi interés de investigación gradualmente cambió del procesamiento del lenguaje natural, multilingüismo e inteligencia de código a multimodal. En Step Ahead, combiné mi exploración previa en generación de video visual con las necesidades de la empresa y la implementé desde cero.

El informe introdujo principalmente los dos modelos que lanzamos en código abierto en febrero y marzo: el modelo de texto a video Step-Video-T2V con 30 mil millones de parámetros, y el modelo de imagen a video Step-Video-TI2V con 30 mil millones de parámetros entrenado a partir de este. Este informe es relativamente convencional, resumiendo principalmente todos los aspectos de los modelos SOTA (State-of-the-Art) en esta dirección en la etapa actual, incluyendo el diseño de la estructura del modelo, el flujo de procesamiento de datos, la optimización de la eficiencia del entrenamiento, etc.

A través del desarrollo de modelos de 4 mil millones a 30 mil millones, me di cuenta de que el paradigma de modelos de generación de video basado en AIGC de esta generación actual puede tener un límite. El final del informe también mencionó brevemente algunas ideas y planes para el futuro.

CSDN: Usted mencionó que el informe fue convencional y no destacó demasiado la innovación técnica en la investigación científica. Entonces, ¿podría compartir algunas de las innovaciones tecnológicas en el campo de la IA en los últimos cinco años que considera hitos?

Duan Nan: Desde mi estándar, las innovaciones significativas en el campo de la IA en los últimos cinco años incluyen:

Modelo BERT: Mejoró enormemente las capacidades de representación del lenguaje natural. Después de eso, el campo de la PNL formó una situación tripartita: codificador (como BERT), codificador-decodificador (como T5) y decodificador puro (como GPT).

Modelo GPT-3: La capacidad de aprendizaje few-shot (pocos ejemplos) mostrada cuando la escala de datos y parámetros alcanzó un cierto nivel fue un hito, estableciendo básicamente la dirección de la arquitectura del modelo.

InstructGPT/ChatGPT: A través de la alineación de instrucciones y el aprendizaje por refuerzo (RLHF), los modelos pudieron seguir las instrucciones extremadamente bien. Este es otro hito importante, sentando básicamente las bases del paradigma de la PNL.

Modelos de la serie DeepSeek: En China, DeepSeek ha producido una serie de modelos muy excelentes (como Math, Code, serie V y R1). No solo tienen un rendimiento sobresaliente, sino que también son prácticos para un uso amplio, lo cual es notable.

Modelo Sora: En el campo de la generación multimodal, la aparición de Sora realmente puso el foco en la generación de video.

GPT-4o/Gemini 2.5: Estos tipos de modelos realmente impulsaron la comprensión unificada de imágenes y texto a un nuevo nivel, lo cual es muy crucial.

CSDN: Usted cree que el trabajo actual todavía está a cierta distancia del efecto logrado por Sora y otros, pero construir una base sólida es un requisito previo para avanzar en esa dirección. ¿Podría compartir algunos de los errores que encontró y las lecciones aprendidas en la construcción de infraestructura (Infra) para proporcionar alguna referencia a otros equipos?

Duan Nan: Además de los esfuerzos de los miembros de nuestro equipo, este proyecto también recibió un fuerte apoyo de los equipos de base de datos y sistema de la empresa. Compartiré algunas experiencias desde tres aspectos: modelo, datos y sistema:

Nivel de Modelo

Full Attention: En las primeras etapas, intentamos una estructura que separaba los aspectos espaciales y temporales y luego los apilaba. Más tarde, descubrimos que el mecanismo Full Attention permite una interacción suficiente de información dentro del modelo, mejorando enormemente el rango de movimiento. Esto ahora es un consenso.

Elección de Arquitectura (DIT + Cross Attention vs MMDIT): Elegimos DIT más Cross Attention, y arquitecturas similares son utilizadas por Movie Gen de Meta y Wanxiang (Wan) de Alibaba. Algunos modelos de código cerrado o grandes empresas pueden preferir MMDIT (integrando información de texto y visual antes). Teóricamente, MMDIT podría ser mejor para el control de instrucciones, pero elegimos el primero también considerando la compatibilidad del modelo para una futura evolución hacia modelos fundacionales visuales. Esta no es la elección óptima, cada una tiene pros y contras.

Tamaño del Modelo (30B): Elegir 30B fue para explorar la relación entre el tamaño del modelo y el efecto. La conclusión es que la Ley de Escalamiento de los modelos Diffusion en el rango de 4B a 30B no muestra una mejora tan significativa en la capacidad de generalización como los modelos de lenguaje, pero su capacidad de memoria es muy fuerte. Para equilibrar eficiencia y rendimiento, alrededor de 15B podría ser una buena opción. Si se exploran AGI o los límites superiores de los modelos y los recursos son suficientes, es posible una mayor afinación o intentar modelos más grandes.

Nivel de Datos

El procesamiento de datos es crucial. Esto incluye la segmentación de video, el procesamiento de marcas de agua/subtítulos, la descripción del contenido, la puntuación estética, la puntuación de movimiento, la puntuación de claridad, el movimiento de la cámara, la anotación del lenguaje de la cámara, etc., todo lo cual requiere un esfuerzo enorme y trabajo práctico.

Nivel del Sistema

Contar con el apoyo de un equipo de sistema fuerte es muy crucial. También me gustaría agradecer al equipo de sistema de Step Ahead aquí; son muy fuertes, y aprendí mucho de ellos. Su apoyo al proyecto fue vital.

CSDN: En la práctica de modelos multimodales, si tuviera que elegir el paso más difícil y crucial, sin el cual todo el proyecto del modelo no podría avanzar, ¿cuál sería?

Duan Nan: Eso depende de las condiciones previas. Si los recursos son suficientes, los datos son lo más difícil. Si los recursos son relativamente limitados, entonces tanto los datos como los sistemas se vuelven muy difíciles. Desde el algoritmo del modelo en sí, si no se enfatiza específicamente la próxima generación o la novedad, la arquitectura del modelo para la mayoría de los temas en el campo de la IA convencional es relativamente clara. Más allá de estas arquitecturas, hay muchos detalles en el entrenamiento, la afinación y la inferencia. Para proyectos con relativamente alta certeza, parece que la importancia de los sistemas y los datos puede ser mayor que la del propio algoritmo.

CSDN: Usted mencionó que inicialmente cuestionaba el efecto del modelo de 30B parámetros, pero después de la práctica, sintió que los parámetros de tamaño medio podrían ser suficientes. ¿Continuará explorando modelos de parámetros más grandes en el futuro?

Duan Nan: Sí, pero hay una condición previa. Dije que los modelos de parámetros medios están bien porque en Step Ahead, necesitamos considerar los desafíos a nivel de aplicación, que es el equilibrio entre eficiencia y calidad.

Pero desde otra perspectiva, creo que hay un límite superior para esta generación de modelos Diffusion. Para avanzar, los modelos de video necesitan seguir las leyes físicas con más fuerza y no solo hacer generación. Los modelos exitosos en el campo de la PNL obtuvieron capacidades de comprensión más fuertes a través de la generación; la generación es solo una forma de mostrar resultados. El dominio visual también debería ser así, permitiendo a los modelos visuales tener capacidades de comprensión visual más fuertes a través de un paradigma similar. Esta capacidad en la PNL podría requerir parámetros de decenas de miles de millones o más para exhibir aprendizaje en contexto.

Los modelos actuales de generación de video se entrenan con "descripción de texto -> video visual", lo cual es similar a la traducción automática de hace una década. Los modelos exitosos de PNL aprenden relaciones causales y contextuales en la información prediciendo el siguiente token.

Por lo tanto, en cuanto al tamaño del modelo, la razón para explorar modelos más grandes y por qué elegí la estructura DIT+Cross Attention es porque creo que el video tiene la oportunidad de convertirse en un modelo que unifique la comprensión y la generación en el dominio visual, como los grandes modelos de lenguaje, y pueda integrarse perfectamente con el lenguaje. Esta es la dirección que nuestro equipo está explorando actualmente.

CSDN: Acaba de mencionar los desafíos que la generación de video enfrentará en los próximos uno o dos años y sus pensamientos sobre la próxima generación de modelos. ¿Qué avances de exploración en estas direcciones de la industria y la academia cree que merecen atención? O, ¿qué soluciones ha observado? Además, sobre el problema de la Ley de Escalamiento que mencionó más adelante.

Duan Nan: En cuanto a los modelos unificados de comprensión y generación multimodal, una dirección principal actualmente es la fusión de Autoregresivo (AR) y Diffusion. Simplemente convertir señales visuales en tokens discretos lo hicimos en Microsoft anteriormente, pero descubrimos que degradaba significativamente la calidad de la generación. Por lo tanto, usar representaciones continuas para la comprensión y generación visual es una dirección relativamente correcta.

Actualmente, Diffusion sigue siendo SOTA en la generación visual pura, pero los modelos exitosos de PNL son principalmente Autoregresivos. La dirección que yo personalmente favorezco es: la fusión de Autoregresivo y Diffusion.

Integrar video en este marco trae nuevos desafíos. Generar un fotograma de imagen no acumula mucho error; pero con videos que duran cientos o incluso miles de fotogramas, los métodos AR puros tendrán una seria acumulación de errores.

Los modelos AR predicen token por token, lo cual es extremadamente ineficiente, especialmente para video. Los mecanismos dispersos en PNL (MoE, MRA, etc.) pueden aplicarse a modelos de generación y comprensión visual en el futuro.

Garantizar la consistencia, las leyes de movimiento y la eficiencia de entrenamiento/inferencia para videos largos son todos desafíos enormes.

CSDN: Cuando uso herramientas de generación de video, a menudo siento que la velocidad de generación es lenta y el tiempo de espera es largo. Aunque es mucho más rápido que la producción manual de video, ¿cómo mejorar aún más la velocidad y la calidad, al mismo tiempo que se extiende la duración de la generación? Este debería ser un problema central para ustedes, ¿verdad?

Duan Nan: Sí. Al igual que el desarrollo de la tecnología de traducción, de ser dominada por unos pocos a estar disponible para todos. La generación de video está pasando por un proceso similar, bajando el umbral para la creación de contenido. Cómo permitir a los creadores obtener resultados de alta calidad a costos más bajos y más rápido es la dirección en la que necesitamos trabajar. Creo que lo que sucedió en el campo de los modelos de lenguaje también sucederá en el campo visual, y la próxima generación de modelos grandes podrá apoyar mejor la creación de contenido de alta calidad en el futuro.

El núcleo es la velocidad de inferencia y la garantía de calidad. Actualmente, algunos buenos ejemplos de generación se parecen más a que el modelo ha visto muchas distribuciones similares de contenido en los datos de entrenamiento, formando una reacción "subconsciente".

CSDN: Usted mencionó los dos modelos Step-Video de código abierto anteriormente. ¿Podría introducir sus efectos? Y ¿qué tipo de comentarios ha recibido de la comunidad, la academia o la industria después de abrirlos?

Duan Nan: Nuestros dos modelos tienen sus propias características:

Modelo de texto a video Step-Video-T2 (30B): Mejoró el movimiento del video, principalmente a través de datos y estrategias de entrenamiento. Tiene un buen rendimiento en movimientos deportivos y adherencia a las leyes físicas. Cuando se lanzó a finales de enero/principios de febrero de este año, comparado con los modelos convencionales nacionales e internacionales, debería ser SOTA entre los modelos de código abierto y tiene características distintivas en algunas dimensiones.

Modelo de imagen a video Step-Video-TI2V (30B): Como fue entrenado con una gran cantidad de datos de anime bidimensional en las primeras etapas, la calidad en este estilo es muy buena. También lo hemos comparado con productos como Wondershare.

CSDN: ¿Cuál es el tamaño actual de su equipo? ¿Incluye todas las partes: modelo, datos y sistema?

Duan Nan: Incluyendo pasantes, son alrededor de una docena de personas. Había menos gente cuando trabajábamos en este proyecto. Las partes de datos y sistema son apoyadas por colegas de otros equipos.

CSDN: ¿Cuál es la principal retroalimentación de la comunidad?

Duan Nan: La principal retroalimentación es que el modelo es demasiado grande (30B), difícil de manejar para los creadores de AIGC promedio.

Esto me dio una idea: un modelo completo y utilizable tiene un mayor volumen de descargas en la comunidad de aplicaciones que un modelo que persigue el límite superior. Los modelos no solo deben perseguir el límite superior, sino también considerar la usabilidad, haciéndolos accesibles para desarrolladores y creadores. Esto es algo que realmente no consideré mucho antes, ya que en ese momento me preocupaba más el límite superior del modelo y las capacidades finales, lo cual se relaciona con si se necesita un modelo de próxima generación.

CSDN: Entonces, ¿en el futuro, explorará el límite superior hacia arriba y también considerará la usabilidad hacia abajo? ¿Trabajará en modelos grandes y pequeños?

Duan Nan: Sí, los modelos grandes necesitan modelos pequeños correspondientes. Este es un compromiso entre el límite superior y las aplicaciones. Además, los logros de los modelos grandes son cruciales para mejorar la calidad de los modelos pequeños, lo que también sucederá en el campo del video.

Sin embargo, desde mi perspectiva personal, a continuación me centraré más en la arquitectura de modelos de próxima generación para la comprensión y generación de video, y la comprensión y generación multimodal. Primero puedo explorar la arquitectura en modelos pequeños, verificarla y luego considerar escalar.

CSDN: Usted resumió seis desafíos principales en su discurso. ¿En qué se diferencian estos de los desafíos en la comprensión de video que acaba de mencionar?

图片

Duan Nan: Si nos centramos en AIGC, la búsqueda de eficiencia, controlabilidad, editabilidad y datos de alta calidad es particularmente importante. Se trata de construir mejores modelos sobre la base actual, lo que requiere un refinamiento continuo de los datos y los módulos del modelo (VAE, Encoder, DIT, post-entrenamiento SFT/RLHF/DPO, etc.).

Pero desde la perspectiva global de la IA, los modelos fundacionales visuales necesitan capacidades de comprensión más fuertes, lo que requiere un cambio en el paradigma de aprendizaje. No creo que el método de aprendizaje Diffusion sea probable que aprenda capacidades de comprensión general; necesita realizar un aprendizaje de predicción autorregresiva como PNL.

Una vez que se cambia a este paradigma, los problemas como la eficiencia y la alineación pueden dejarse de lado por un tiempo. Creo que para los modelos fundacionales, debe ser impulsado por datos, no por datos falsificados, y no pueden ser datos sintéticos. Por lo tanto, necesitamos prestar más atención a la selección de datos para los modelos fundacionales (datos masivos acumulados naturalmente), el paradigma de aprendizaje (tomando prestado de los modelos de lenguaje pero adaptándose a la visión). La representación visual, los métodos de generación (no necesariamente predecir tokens), cómo evaluar las capacidades de comprensión visual, etc., son todos desafíos enormes. El campo visual puede estar en la etapa posterior a BERT y antes de GPT-3 en PNL, y luego pasará por un proceso similar a GPT-3 a ChatGPT.

CSDN: Si no se pueden usar datos sintéticos para entrenar modelos fundacionales, ¿esto causará un gran problema en la práctica? ¿Cómo lo aborda?

Duan Nan: Efectivamente, es un gran problema. Podemos aprender de la ruta de PNL a multimodal: primero construir un gran modelo de lenguaje en PNL, luego conectar información visual y afinar el modelo unimodal en uno multimodal utilizando una pequeña cantidad de datos de alineación de imagen-texto.

Aunque nos falta una gran cantidad de datos naturales de alineación de imagen-texto, hay muchísimos datos de texto puro, imagen pura y video puro. Creo que podemos construir primero un modelo fundacional como un modelo de lenguaje bajo una cierta unimodalidad (como la visión), mejorar sus propias capacidades y luego realizar un ajuste fino cruzado modal. En ese momento, la cantidad de datos de alineación requerida será mucho menor. Este es un camino complementario diferente del multimodal nativo de extremo a extremo.

CSDN: Si analogizamos el desarrollo de PNL de BERT a GPT, ¿en qué nodo cree que se encuentra actualmente la generación de video? ¿Cuándo se espera que alcance un momento similar a ChatGPT?

Duan Nan: Todavía está lejos. Siento que los modelos fundacionales en el dominio visual surgirán en los próximos uno o dos años. Primero, saldrán modelos similares dirigidos a contenido de video; segundo, combinados con IA multimodal, proporcionarán capacidades cruciales de comprensión visual para tareas de comprensión existentes, así como para temas candentes actuales como IA corpórea, agentes y robótica. Si este paso se da bien, será una piedra angular importante para la próxima etapa de aplicaciones e investigación.

CSDN: Entonces, ¿cree que el desarrollo de los modelos fundacionales de generación de video se combinará con direcciones como la IA corpórea en el futuro?

Duan Nan: Desde la perspectiva de la AGI, el objetivo es crear un "agente inteligente" que supere con creces a los humanos en ciertas dimensiones, pero que en general posea funciones humanas. Los humanos reciben información de forma secuencial, similar al video. Por lo tanto, el desarrollo de la comprensión visual es principalmente para proporcionar capacidades de comprensión visual temporal más potentes para futuros agentes inteligentes (IA corpórea, robots, etc.).

Desde la perspectiva de AIGC, en el futuro, todos podrán tal vez incluirse en películas y crear junto con las personas con las que quieran colaborar.

Actualmente, AIGC tiene varias tendencias:

La duración de la generación de video aumenta, mejorando la narrativa;

La capacidad de edición mejora continuamente, mejorando la controlabilidad;

La generación de imagen/video basada en referencias se desarrolla rápidamente, permitiendo que todos sean protagonistas en el futuro.

CSDN: Los seis desafíos principales que compartió, ¿están ordenados de alguna manera (por ejemplo, por dificultad)?

Duan Nan: Están ordenados desde una perspectiva pragmática a una de medio a largo plazo. La parte pragmática es el nivel de datos; más adelante está el nivel de aplicación, considerando la eficiencia, el seguimiento de instrucciones, la interacción de edición multirredonda; yendo más allá, en mi opinión, no es solo AIGC, sino el desarrollo de la IA en sí, como los modelos del mundo.

CSDN: Entonces, los modelos del mundo se relacionan con el nodo final (o crucial) de AIGC que todos esperan lograr. Respecto a estos seis desafíos, ¿su equipo tiene planes de optimización o mejora correspondientes en la hoja de ruta técnica?

Duan Nan: Sí, hay planes. Por un lado, acumularemos experiencia más sólida en módulos básicos (anotación de datos, representación de video, estructura del modelo), iterando y optimizando continuamente, mejorando como un producto. Por otro lado, invertiremos una pequeña cantidad de recursos en la exploración futura. No podemos ser solo seguidores; debemos intentar hacer cosas innovadoras, aunque la probabilidad sea baja.

CSDN: En su resumen final sobre el Futuro, mencionó cambios en el paradigma del modelo, el paradigma de aprendizaje y la capacidad del modelo. ¿Esto se relaciona con la verdadera innovación que espera lograr? ¿Podría compartir sus ideas básicas?

Duan Nan:

Cambio en el Paradigma de Estructura del Modelo: Evolucionar de modelos puramente Diffusion a la fusión de Autoregresivo y Diffusion.

Cambio en el Paradigma de Aprendizaje: Pasar del aprendizaje de mapeo de texto a video al aprendizaje de predicción de relaciones causales como los modelos de lenguaje.

Cambio en las Capacidades: Desde la perspectiva de AIGC, es la capacidad de generación, pero su generalización no es tan buena como la de los modelos de lenguaje. La capacidad más fuerte de un modelo fundacional debe ser el aprendizaje few-shot, es decir, la capacidad de resolver rápidamente una nueva tarea con una pequeña cantidad de muestras de la nueva tarea. Análogo a la visión, en el futuro, quizás se le muestren al modelo algunos ejemplos de efectos especiales (como un objeto explotando), y podrá producir directamente un efecto similar sin entrenamiento adicional.

CSDN: Estos cambios que imagina suenan muy a largo plazo.

Duan Nan: Muchas cosas se desarrollan muy rápido. Antes de noviembre de 2022, yo sentía que podía trabajar en PNL toda la vida, pero luego la situación cambió rápidamente. Así que estas cosas que suenan a largo plazo, quizás su versión simplificada o etapas intermedias, puedan aparecer rápidamente.

CSDN: ¿Cuánto tiempo es este "rápidamente"? ¿Qué cosas importantes estima que sucederán en uno o dos años?

Duan Nan: Personalmente, creo que es uno o dos años. Cosas importantes, por ejemplo: ¿aparecerá un momento similar a GPT-3 en el dominio visual? ¿Podrán los modelos multimodales unificar verdaderamente texto, imágenes y videos? Si esto se logra, será notable, y la gente realmente tendrá que pensar en qué hacer después.

CSDN: Después de "desaparecer" durante un año, ha reaparecido. ¿Podría compartir las tres lecciones más profundas que aprendió durante este año? ¿Cuáles fueron los cambios en su cognición y cuáles permanecieron sin cambios?

Duan Nan:

Expansión de la Pila de Habilidades: En el pasado, quizás me enfoqué demasiado en los algoritmos y la llamada innovación en sí misma, descuidando la importancia de los datos y los sistemas en proyectos grandes. Este año, he acumulado experiencia en esta área.

Usabilidad: Los proyectos no solo deben perseguir los límites académicos, sino también considerar la usabilidad, especialmente en diferentes entornos. Una investigación influyente, en esta era, debe poder ser utilizada por la gente.

Cambio Cognitivo: Tengo una comprensión más profunda de la relación entre la innovación tecnológica y la aplicación generalizada.

Sin Cambios: Mi búsqueda de la tecnología en sí misma nunca ha cambiado. En la dirección general, creo que algunas cosas sucederán eventualmente, y el objetivo de avanzar en esa dirección no ha cambiado.

CSDN: En la era cambiante de los grandes modelos, los avances tecnológicos son impredecibles. En medio de esta incertidumbre, ¿qué cree que es seguro?

Duan Nan: Como alguien que ha estado en la investigación durante muchos años, creo que algunas tendencias macroscópicas son seguras. Aunque se harán ajustes dependiendo de la plataforma y la etapa, el objetivo de avanzar hacia la dirección general no cambiará.

CSDN: En el campo multimodal, ¿qué cree que se logrará definitivamente?

Duan Nan: La unificación de la comprensión y la generación de lenguaje y visión. En el futuro, las personas podrán usar dispositivos de manera más conveniente para percibir contenido más allá del texto (imágenes, entorno), y también podrán crear mejor contenido para satisfacer necesidades sociales, laborales o hobbies. Habrá más oportunidades para que todos sean creadores de contenido propio. Antes asistí a una conferencia anual y vi a creadores de contenido construyendo pipelines muy complejos, lo que me hizo creer que las personas creativas integrarán y usarán la tecnología; es muy impresionante.

CSDN: Al principio del año, todos pensaban que el campo del texto estaba relativamente maduro y que los resultados multimodales aún no eran obvios. ¿Cree que este resultado aparecerá en 2025 o 2026? ¿Podría ser más específico?

Duan Nan: Personalmente, siento que en el próximo año, al menos la comprensión y generación de imágenes y texto, como GPT-4o, se hará muy bien y podrá resolver muchos problemas prácticos, como pequeños negocios creando anuncios con imágenes y texto.

Más adelante:

Nivel de Aplicación: Las nuevas aplicaciones de IA son actualmente inciertas; podrían haber desarrollos en el futuro.

Nivel del Modelo: Los modelos multimodales se desarrollarán hacia el mundo físico, percibiendo la visión mejor, como la comprensión de acciones. Habrá cada vez más resultados sólidos en esta área.

CSDN: Alguien en la transmisión en vivo pregunta qué asistentes de IA usa el Sr. Duan. ¿Cuáles son sus hábitos de uso de IA?

Duan Nan: Uso algunos de ellos. Incluyendo el asistente "Step Ahead AI" de Step Ahead, DeepSeek, etc. Como trabajé en Microsoft, también mantuve algunos hábitos de usar ChatGPT.

CSDN: ¿Cómo fue su estado de trabajo durante el último año? ¿Cuántas horas extras trabajó?

Duan Nan: Creo que se llama horas extras cuando es pasivo, y no se llama horas extras cuando es activo. La gente de nuestro equipo es automotivada y no necesita que se le pida específicamente.

CSDN: Esto significa que todos están invertidos voluntariamente, sintiendo que han encontrado muchas dificultades pero también que es algo que quieren hacer.

Duan Nan: Sí, así es.

CSDN: Muchas gracias por compartir, Sr. Duan. Espero que pueda salir y comunicarse con todos más a menudo en el futuro.

Duan Nan: Bien, gracias a todos.

图片

La 2025 Global Machine Learning Technology Conference Shanghai Station ha concluido con éxito. Esta conferencia giró en torno a las tendencias de desarrollo de vanguardia y la práctica de implementación de la IA, centrándose en 12 temas principales que incluyen la evolución de la tecnología de modelos de lenguaje grandes, agentes de IA, inteligencia corpórea, análisis de tecnología DeepSeek y práctica de la industria. Más de 60 invitados de peso de las principales empresas tecnológicas y instituciones académicas globales se reunieron para presentar de manera integral las tendencias técnicas y las fronteras de aplicación en el campo de la IA.

Escanee el código QR a continuación para recibir la PPT de la "2025 Global Machine Learning Technology Conference Shanghai Station" de forma gratuita.

图片

Etiqueta Principal:Generación de Video con IA

Etiquetas Secundarias:Modelos FundacionalesIA CorpóreaIA MultimodalModelos Diffusion


Anterior:Subrevista Nature: Los humanos volvieron a perder contra la IA, especialmente cuando sabe quién eres

Siguiente:Modelos Grandes Multimodales Fallan Colectivamente, GPT-4o Solo Tiene un 50% de Tasa de Aprobación de Seguridad: SIUO Revela Puntos Ciegos de Seguridad Transmodales

Compartir URL Corta