Interview mit Duan Nan von Step Ahead: "Wir könnten die Obergrenze der Diffusion-Fähigkeit erreichen"

图片

"Grundmodelle im visuellen Bereich mit tiefergehenden Verständnis Fähigkeiten (die den 'GPT-3 Moment' für Vision bringen könnten) werden voraussichtlich in den nächsten 1-2 Jahren entstehen."

Interview | Tang Xiaoyin, Executive Editor von CSDN & 《The New Programmer》

Gast | Duan Nan, Tech Fellow bei Step Ahead

Redakteurin | Zhang Hongyue

Produziert von | AI Technology Base Camp (ID: rgznai100)

In dieser von KI angetriebenen Welle der visuellen Inhaltsinnovation steht Duan Nan, Tech Fellow bei Step Ahead und ehemaliger Senior Researcher bei Microsoft Research Asia, an der Spitze der Erforschung. Sein Team hat im Februar und März dieses Jahres zwei wichtige Videogenerierungsmodelle quelloffen veröffentlicht: das Text-zu-Video-Modell Step-Video-T2V mit 30 Milliarden Parametern und das darauf trainierte Bild-zu-Video-Modell Step-Video-TI2V mit 30 Milliarden Parametern, die im Bereich der KI-Videogenerierung große Aufmerksamkeit erregt haben.

Duan Nan weist nüchtern darauf hin, dass die aktuellen Videogenerierungstechnologien (wie Diffusion-Modelle) zwar beeindruckende visuelle Segmente produzieren können, wir aber möglicherweise die 'Obergrenze' ihrer Fähigkeiten erreichen. Der wirkliche revolutionäre Durchbruch bei Video- und sogar multimodalen Basismodellen mit tiefen Verständnis Fähigkeiten steht noch bevor.

图片

Duan Nan, Tech Fellow bei Step Ahead, leitet ein Forschungsteam, das sprach- und videozentrierte multimodale Basismodelle entwickelt. Zuvor war er Principal Senior Researcher und Research Manager des Natural Language Computing Teams bei Microsoft Research Asia (2012-2024). Dr. Duan ist adjunct Doktorvater an der University of Science and Technology of China und der Xi'an Jiaotong University sowie adjunct Professor an der Tianjin University. Seine Forschungsschwerpunkte sind Natural Language Processing, Code Intelligence, multimodale Basismodelle, Agenten und mehr.

Auf der 2025 Global Machine Learning Technology Conference (ML-Summit), die vom 18. bis 19. April stattfand, hielt Duan Nan eine Keynote-Rede über "Fortschritte, Herausforderungen und Zukunft von Videogenerierungs-Basismodellen" und gab anschließend ein ausführliches Live-Interview für CSDN.

Duan Nan prognostizierte, dass Basismodelle im visuellen Bereich mit tieferen Verständnis Fähigkeiten (die möglicherweise den "GPT-3 Moment" für Vision bringen) voraussichtlich in den nächsten 1-2 Jahren entstehen werden.

Warum hat er diese Einschätzung? In diesem informationsreichen Dialog teilte Duan Nan mehrere zentrale Einblicke in die Zukunft der Videogenerierung und multimodalen KI:

Einzigartigkeit des Video Scaling Law: Im Gegensatz zu Sprachmodellen ist die Leistung des Scaling Law bei aktuellen Diffusion-Videomodellen (auch mit 30 Mrd. Parametern) in Bezug auf die Generalisierungsfähigkeit nicht signifikant, aber ihre Speicherfähigkeit ist sehr stark. Mittelgroße Parameter (z.B. 15 Mrd.) könnten ein besseres Gleichgewicht zwischen Effizienz und Leistung erreichen.

Über "Generierung" hinaus zu "Verständnis": Die aktuelle Mainstream-Videogenerierung ähnelt einer "Text-zu-Bild-Übersetzung" und hat Grenzen. Der wirkliche Durchbruch liegt darin, dass Modelle tiefe visuelle Verständnis Fähigkeiten benötigen, nicht nur Pixelgenerierung. Dies erfordert einen Paradigmenwechsel im Lernen, vom "Mapping Learning" zu einem "Causal Prediction Learning" ähnlich Sprachmodellen.

AR und Diffusion Fusion: Der zukünftige Trend der Modellarchitektur könnte eine Fusion von Autoregressive (AR) und Diffusion Modellen sein, um die Vorteile beider zu kombinieren und das Verständnis und die Generierung von Video- und sogar multimodalen Inhalten besser zu unterstützen.

Daten sind immer noch der Grundstein und Engpass: Qualitativ hochwertige, groß angelegte, vielfältige natürliche Daten (anstatt sich übermäßig auf synthetische Daten für das Basistraining zu verlassen) sind entscheidend für den Aufbau leistungsfähiger Basismodelle. Die Komplexität und Kosten der Datenverarbeitung und -annotation sind riesige Herausforderungen.

Der "Few-Shot Learning" Moment für Vision: Die Schlüsselkompetenz der nächsten Generation visueller Basismodelle wird eine starke Few-Shot Learning Fähigkeit sein, die es ihnen ermöglicht, sich schnell an neue visuelle Aufgaben anzupassen und diese zu lösen, ähnlich dem Wandel, den GPT-3 für NLP brachte.

Benutzerfreundlichkeit und Einfluss sind gleichermaßen wichtig: Technologische Innovation ist wichtig, aber die Benutzerfreundlichkeit des Modells und ob es von einer breiten Palette von Entwicklern und Kreatoren tatsächlich genutzt werden kann, sind wichtige Maßstäbe für seinen Einfluss und auch Ziele, die die Forschung berücksichtigen muss.

Die Zukunft von KI und verkörperter Intelligenz: Fortschritte bei den Videoverständnisfähigkeiten werden Kernwahrnehmungsfähigkeiten für KI-Anwendungen bereitstellen, die mit der physischen Welt interagieren müssen, wie z.B. verkörperte Intelligenz und Robotik.

Dieses Interview führt Sie tief in das fortschrittliche Denken, technische Engpässe und zukünftige Pläne im Bereich der Videogenerierung und sogar der multimodalen KI ein. Ob Sie ein KI-Forscher, Entwickler oder Beobachter sind, der neugierig auf zukünftige Technologien ist, Sie können daraus tiefe Einblicke gewinnen.

Im Folgenden das offizielle Interview mit Herrn Duan Nan: (Der Text wurde zur besseren Lesbarkeit vom Redakteur entsprechend optimiert)

CSDN: Wir haben den lang erwarteten Herrn Duan Nan eingeladen, der nun als Tech Fellow bei Step Ahead tätig ist. Herr Duan, bitte grüßen Sie zuerst alle und stellen Sie sich kurz vor.

Duan Nan: Hallo zusammen, mein Name ist Duan Nan. Ich arbeite derzeit bei Step Ahead und bin hauptsächlich für Projekte im Bereich der Videogenerierung zuständig. Davor war ich über zehn Jahre bei Microsoft Research Asia tätig und beschäftigte mich mit Forschung im Bereich Natural Language Processing. Es ist mir heute eine große Ehre, in diesem Live-Format mit Ihnen zu kommunizieren, was für mich das erste Mal ist.

CSDN: Nehmen Sie zum ersten Mal an einem Live-Stream teil?

Duan Nan: Ja, es ist wirklich das erste Mal.

CSDN: Das ist eine große Ehre, dass Herr Duans Live-Premiere im CSDN-Live-Stream stattfindet.

Duan Nan: Die Ehre ist auf meiner Seite.

CSDN: Mir ist aufgefallen, dass Ihr Titel bei Step Ahead "Tech Fellow" ist, was in Startups relativ selten ist und eher in ausländischen Unternehmen verwendet wird. Können Sie etwas über die Überlegung hinter diesem Titel erzählen?

Duan Nan: Die Form des Titels ist nicht so wichtig. Ich bin im Grunde immer noch ein Forscher, der sich weiterhin intensiv mit den Bereichen beschäftigt, die mich interessieren, nur auf einer anderen Arbeitsplattform.

CSDN: Herr Duan hielt auf der Global Machine Learning Technology Conference 2025 einen Vortrag über "Fortschritte, Herausforderungen und Zukunft von Videogenerierungs-Basismodellen", was auch seine neuesten Ergebnisse sind, die er mit viel Mühe vorbereitet hat. Können Sie bitte kurz den Kerninhalt des Vortrags vorstellen, insbesondere die Schwerpunkte, auf die Sie die Aufmerksamkeit lenken möchten?

Duan Nan: Der heutige Bericht ist eine Zwischenbilanz meiner Projekte bei Step Ahead im letzten Jahr. Schon als ich bei Microsoft Research Asia war, verlagerten sich meine Forschungsinteressen allmählich vom Natural Language Processing, Mehrsprachigkeit und Code Intelligence hin zur Multimodalität. Bei Step Ahead habe ich meine bisherigen Erkundungen im Bereich der visuellen Videogenerierung mit den Anforderungen des Unternehmens kombiniert und von Grund auf umgesetzt.

Der Bericht stellte hauptsächlich die beiden Modelle vor, die wir im Februar und März quelloffen veröffentlicht haben: das Text-zu-Video-Modell Step-Video-T2V mit 30 Milliarden Parametern und das darauf trainierte Bild-zu-Video-Modell Step-Video-TI2V mit 30 Milliarden Parametern. Dieser Bericht ist relativ konventionell und fasst die Aspekte der aktuellen SOTA (State-of-the-Art)-Modelle in diesem Bereich zusammen, einschließlich Modelldesign, Datenverarbeitung und Optimierung der Trainingseffizienz.

Durch die Entwicklung von Modellen von 4B auf 30B wurde mir klar, dass das aktuelle Paradigma der AIGC-basierten Videogenerierungsmodelle eine Obergrenze haben könnte. Am Ende des Berichts wurden auch kurz einige Gedanken und Pläne für die Zukunft erwähnt.

CSDN: Sie erwähnten, dass der Bericht konventionell war und die technische Innovation in der Forschung nicht übermäßig hervorhob. Können Sie dann einige der technologischen Innovationen im Bereich der KI in den letzten fünf Jahren teilen, die Sie als Meilensteine betrachten?

Duan Nan: Nach meinen Maßstäben gehören zu den bedeutenden Innovationen im Bereich der KI in den letzten fünf Jahren:

BERT-Modell: Es hat die Darstellungsfähigkeiten der natürlichen Sprache stark verbessert. Danach bildete sich im NLP-Bereich eine dreigeteilte Situation: Encoder (wie BERT), Encoder-Decoder (wie T5) und reine Decoder (wie GPT).

GPT-3 Modell: Die Few-Shot Learning Fähigkeit, die sich zeigte, als Daten- und Parameterskalen ein bestimmtes Niveau erreichten, war ein Meilenstein und etablierte im Wesentlichen die Richtung der Modellarchitektur.

InstructGPT/ChatGPT: Durch Anweisungsausrichtung und Reinforcement Learning (RLHF) konnten Modelle Anweisungen extrem gut befolgen. Dies ist ein weiterer wichtiger Meilenstein und legte im Wesentlichen das Paradigma für NLP fest.

DeepSeek-Serienmodelle: Im Inland hat DeepSeek eine Reihe sehr exzellenter Modelle (wie Math, Code, V-Serie und R1) entwickelt. Sie haben nicht nur eine hervorragende Leistung, sondern sind auch praktisch für die breite Nutzung, was bemerkenswert ist.

Sora Modell: Im Bereich der multimodalen Generierung hat das Erscheinen von Sora die Videogenerierung wirklich in den Fokus gerückt.

GPT-4o/Gemini 2.5: Diese Art von Modellen hat das vereinheitlichte Verständnis von Bildern und Text wirklich auf eine neue Höhe gebracht, was sehr entscheidend ist.

CSDN: Sie glauben, dass die aktuelle Arbeit noch etwas Abstand zum Effekt von Sora und anderen hat, aber eine solide Grundlage zu schaffen ist Voraussetzung, um in diese Richtung zu gehen. Können Sie einige der Fallstricke teilen, auf die Sie gestoßen sind, und die Lektionen, die Sie beim Aufbau der Infrastruktur (Infra) gelernt haben, um anderen Teams Anhaltspunkte zu geben?

Duan Nan: Neben den Bemühungen unserer Teammitglieder wurde dieses Projekt auch stark von den Datenbank- und Systemteams des Unternehmens unterstützt. Ich werde einige Erfahrungen aus drei Aspekten teilen: Modell, Daten und System:

Modellebene

Full Attention: In den frühen Phasen haben wir eine Struktur versucht, die räumliche und zeitliche Aspekte trennte und dann stapelte. Später stellten wir fest, dass der Full Attention Mechanismus eine ausreichende Interaktion von Informationen innerhalb des Modells ermöglicht, was die Bewegung stark verbessert. Das ist jetzt ein Konsens.

Architekturwahl (DIT + Cross Attention vs MMDIT): Wir wählten DIT plus Cross Attention, und ähnliche Architekturen werden von Metas Movie Gen und Alibabas Wanxiang (Wan) verwendet. Einige Closed-Source-Modelle oder große Unternehmen bevorzugen möglicherweise MMDIT (Integration von Text- und visueller Information früher). Theoretisch könnte MMDIT besser für die Anweisungssteuerung sein, aber wir wählten ersteres auch unter Berücksichtigung der Kompatibilität des Modells für die zukünftige Entwicklung hin zu visuellen Basismodellen. Das ist nicht die optimale Wahl, jede hat Vor- und Nachteile.

Modellgröße (30B): Die Wahl von 30B diente dazu, die Beziehung zwischen Modellgröße und Effekt zu untersuchen. Das Fazit ist, dass das Scaling Law von Diffusion-Modellen im Bereich von 4B bis 30B keine so signifikante Verbesserung der Generalisierungsfähigkeit wie Sprachmodelle zeigt, aber ihre Speicherfähigkeit sehr stark ist. Für das Gleichgewicht zwischen Effizienz und Leistung könnte etwa 15B eine gute Wahl sein. Wenn AGI oder die Obergrenze von Modellen erforscht und die Ressourcen ausreichend sind, ist weiteres Tuning oder der Versuch größerer Modelle möglich.

Datenebene

Die Datenverarbeitung ist entscheidend. Dazu gehören Videosegmentierung, Wasserzeichen-/Untertitelbearbeitung, Inhaltsbeschreibung, Ästhetikbewertung, Bewegungsbewertung, Klarheitsbewertung, Kamerawackler, Annotation der Kamerasprache usw., alles erfordert enormen Aufwand und praktische Arbeit.

Systemebene

Die Unterstützung durch ein starkes Systemteam ist sehr wichtig. An dieser Stelle möchte ich auch dem Systemteam von Step Ahead danken; sie sind sehr stark, und ich habe viel von ihnen gelernt. Ihre Unterstützung für das Projekt war entscheidend.

CSDN: Wenn Sie bei der Praxis multimodaler Modelle einen einzigen, schwierigsten und entscheidendsten Schritt auswählen müssten, ohne den das gesamte Modellprojekt nicht vorankommen kann, welcher wäre das?

Duan Nan: Das hängt von den Voraussetzungen ab. Wenn die Ressourcen ausreichend sind, sind Daten am schwierigsten. Wenn die Ressourcen relativ begrenzt sind, werden sowohl Daten als auch Systeme sehr schwierig. Von der Modellalgorithmus selbst aus betrachtet, wenn man die nächste Generation oder Neuheit nicht ausdrücklich hervorhebt, ist die Modellarchitektur für die meisten Themen im Mainstream-KI-Bereich relativ klar. Über diesen Architekturen gibt es viele Details in Training, Tuning und Inferenz. Für Projekte mit relativ hoher Sicherheit scheint die Bedeutung von Systemen und Daten möglicherweise größer zu sein als die des Algorithmus selbst.

CSDN: Sie erwähnten, dass Sie anfangs Fragezeichen bezüglich der Wirkung des 30B-Parameter-Modells hatten, aber nach der Praxis das Gefühl hatten, dass mittlere Parameter ausreichen könnten. Werden Sie in Zukunft weiterhin Modelle mit größeren Parametern untersuchen?

Duan Nan: Ja, aber das hat eine Voraussetzung. Ich sage, dass mittlere Parameter-Modelle OK sind, weil wir bei Step Ahead die Herausforderungen auf Anwendungsebene berücksichtigen müssen, nämlich das Gleichgewicht zwischen Effizienz und Qualität.

Aber aus einer anderen Perspektive denke ich, dass die aktuelle Generation von Diffusion-Modellen eine Obergrenze hat. Um voranzukommen, müssen Videomodelle physikalischen Gesetzen stärker folgen und nicht nur Generierung betreiben. Erfolgreiche Modelle im NLP-Bereich haben durch Generierung stärkere Verständnis Fähigkeiten erlangt; Generierung ist nur ein Weg, Ergebnisse zu zeigen. Der Videobereich sollte ebenfalls so sein, um visuellen Modellen durch ein ähnliches Paradigma stärkere visuelle Verständnis Fähigkeiten zu ermöglichen. Diese Fähigkeit erfordert im NLP möglicherweise Parameter im zweistelligen Milliardenbereich oder mehr, um In-Context Learning zu zeigen.

Die aktuellen Videogenerierungsmodelle werden mit "Textbeschreibung -> visuelles Video" trainiert, was der maschinellen Übersetzung vor zehn Jahren ähnelt. Erfolgreiche NLP-Modelle lernen kausale und kontextbezogene Zusammenhänge in Informationen, indem sie das nächste Token vorhersagen.

Daher ist der Grund, warum wir auch größere Modelle untersuchen wollen und warum ich die DIT+Cross Attention-Struktur gewählt habe, der, dass ich glaube, dass Video die Chance hat, ein Modell zu werden, das Verständnis und Generierung im visuellen Bereich vereint, ähnlich großen Sprachmodellen, und sich nahtlos mit Sprache verbinden kann. Das ist die Richtung, die unser Team derzeit erforscht.

CSDN: Sie haben gerade die Herausforderungen erwähnt, denen die Videogenerierung in den nächsten ein bis zwei Jahren gegenüberstehen wird, und Ihre Gedanken zur nächsten Generation von Modellen. Welche Fortschritte in der Industrie und Wissenschaft in diesen Richtungen halten Sie für bemerkenswert? Oder welche Lösungen haben Sie beobachtet? Auch zum Problem des Scaling Law, das Sie später erwähnten.

Duan Nan: Im Hinblick auf Modelle für einheitliches multimodales Verständnis und Generierung ist eine Hauptrichtung derzeit die Fusion von Autoregressiven (AR) und Diffusion Modellen. Das einfache Umwandeln visueller Signale in diskrete Tokens haben wir früher bei Microsoft gemacht, stellten aber fest, dass dies die Generierungsqualität stark beeinträchtigte. Daher ist die Verwendung kontinuierlicher Repräsentationen für visuelles Verständnis und Generierung eine relativ korrekte Richtung.

Derzeit ist Diffusion in der reinen visuellen Generierung immer noch SOTA, aber erfolgreiche NLP-Modelle sind meist Autoregressiv. Die Richtung, die ich persönlich bevorzuge, ist: die Fusion von Autoregressive und Diffusion.

Das Einbeziehen von Video in dieses Framework bringt neue Herausforderungen mit sich. Das Generieren eines Bildframes verursacht kaum Fehlerakkumulation; bei Videos, die hunderte oder sogar tausende Frames lang sind, führen reine AR-Methoden jedoch zu schwerwiegender Fehlerakkumulation.

AR-Modelle sagen Token für Token voraus, was extrem ineffizient ist, besonders für Video. Sparse Mechanismen in NLP (MoE, MRA, etc.) könnten in Zukunft auf visuelle Generierungs- und Verständnismodelle angewendet werden.

Die Gewährleistung der Konsistenz, Bewegungsgesetze, Trainings- und Inferenz-Effizienz bei langen Videos sind allesamt riesige Herausforderungen.

CSDN: Wenn ich Videogenerierungstools verwende, empfinde ich die Generierungsgeschwindigkeit oft als langsam und die Wartezeit als lang. Obwohl es viel schneller ist als die manuelle Videoproduktion, sollte die Frage, wie man Geschwindigkeit und Qualität weiter verbessert und gleichzeitig die Generierungsdauer verlängert, ein Kernproblem für Sie sein, richtig?

Duan Nan: Ja. Genau wie die Entwicklung der Übersetzungstechnologie, von wenigen beherrscht bis für jeden verfügbar. Die Videogenerierung durchläuft einen ähnlichen Prozess und senkt die Hürde für die Inhaltserstellung. Wie man Kreatoren ermöglicht, qualitativ hochwertige Ergebnisse zu geringeren Kosten und schneller zu erhalten, ist die Richtung, auf die wir hinarbeiten müssen. Ich glaube, was im Bereich der Sprachmodelle passiert ist, wird auch im visuellen Bereich passieren, und die nächste Generation großer Modelle wird in Zukunft die Erstellung hochwertiger Inhalte besser unterstützen können.

Der Kern ist die Inferenzgeschwindigkeit und die Qualitätssicherung. Einige gute Generierungsbeispiele sehen derzeit eher so aus, als hätte das Modell in den Trainingsdaten ähnliche Inhaltsverteilungen oft gesehen und eine "unterbewusste" Reaktion gebildet.

CSDN: Sie haben zuvor die beiden quelloffenen Step-Video-Modelle erwähnt. Können Sie etwas über ihre Wirkung erzählen? Und wie war das Feedback von der Community, der Wissenschaft oder der Industrie nach der Veröffentlichung?

Duan Nan: Unsere beiden Modelle haben ihre eigenen Besonderheiten:

Text-zu-Video-Modell Step-Video-T2 (30B): Es hat die Videobewegung verstärkt, hauptsächlich durch Daten- und Trainingsstrategien. Es zeigt gute Leistungen bei Sportbewegungen und der Einhaltung physikalischer Gesetze. Als es Ende Januar/Anfang Februar dieses Jahres veröffentlicht wurde, sollte es im Vergleich zu den gängigen Modellen im In- und Ausland zu den SOTA-Modellen unter den Open-Source-Modellen gehören und hatte in einigen Dimensionen sehr besondere Merkmale.

Bild-zu-Video-Modell Step-Video-TI2V (30B): Da es in der Anfangsphase des Trainings mit vielen 2D-Anime-Daten in Berührung kam, ist die Qualität in diesem Stil sehr gut. Wir haben es auch mit Produkten wie Wondershare verglichen.

CSDN: Wie groß ist Ihr Team derzeit? Beinhaltet es alle Bereiche: Modell, Daten und System?

Duan Nan: Einschließlich Praktikanten sind es etwa ein Dutzend Leute. Bei diesem Projekt waren es noch weniger. Die Daten- und Systembereiche werden von Kollegen aus anderen Teams unterstützt.

CSDN: Was ist das Hauptfeedback aus der Community?

Duan Nan: Das größte Feedback ist, dass das Modell zu groß ist (30B) und für durchschnittliche AIGC-Kreatoren schwer zu handhaben ist.

Das hat mir tatsächlich eine Einsicht gegeben: Ein umfassendes und nutzbares Modell hat in der Anwendungsgemeinschaft eine größere Downloadzahl als ein Modell, das die Obergrenze verfolgt. Modelle sollten nicht nur die Obergrenze verfolgen, sondern auch die Benutzerfreundlichkeit berücksichtigen und Entwicklern und Kreatoren die Nutzung ermöglichen. Das habe ich vorher tatsächlich nicht so sehr bedacht, da ich damals mehr an der Obergrenze und den Endfähigkeiten des Modells interessiert war, was damit zusammenhängt, ob ein Modell der nächsten Generation benötigt wird.

CSDN: Werden Sie also in Zukunft sowohl die Obergrenze nach oben erforschen als auch die Benutzerfreundlichkeit nach unten berücksichtigen? Werden Sie an großen und kleinen Modellen arbeiten?

Duan Nan: Ja, große Modelle müssen entsprechende kleine Modelle haben. Das ist ein Kompromiss zwischen Obergrenze und Anwendung. Darüber hinaus sind die Ergebnisse großer Modelle entscheidend für die Qualitätsverbesserung kleiner Modelle, was auch im Videobereich geschehen wird.

Allerdings werde ich mich aus meiner persönlichen Perspektive in Zukunft stärker auf die Architektur der nächsten Generation von Modellen für Videoverständnis und -generierung sowie multimodales Verständnis und -generierung konzentrieren. Ich werde die Architektur möglicherweise zuerst an kleinen Modellen erforschen, validieren und dann über eine Skalierung nachdenken.

CSDN: Sie haben in Ihrem Vortrag sechs große Herausforderungen zusammengefasst. Worin unterscheiden sich diese von den Herausforderungen beim Videoverständnis, die Sie gerade erwähnt haben?

图片

Duan Nan: Wenn es um AIGC geht, ist die Verfolgung von Effizienz, Steuerbarkeit, Editierbarkeit und hochwertigen Daten besonders wichtig. Hier geht es darum, auf der aktuellen Grundlage bessere Modelle zu entwickeln, was eine kontinuierliche Verfeinerung von Daten und Modellmodulen (VAE, Encoder, DIT, Nachschulung SFT/RLHF/DPO etc.) erfordert.

Aber aus der Gesamtperspektive der KI benötigen visuelle Basismodelle stärkere Verständnis Fähigkeiten, was eine Änderung des Lernparadigmas erfordert. Ich glaube nicht, dass die Diffusion-Lernmethode wahrscheinlich allgemeine Verständnis Fähigkeiten erlernen kann; sie muss wie NLP autoregressives Vorhersagelernen betreiben.

Sobald man zu diesem Paradigma wechselt, könnten Effizienz-, Ausrichtungs- und andere Probleme vorübergehend beiseitegelassen werden. Ich glaube, dass Basismodelle datengesteuert sein müssen, nicht Fake-datengesteuert, und keine synthetischen Daten sein dürfen. Daher müssen wir uns stärker auf die Datenauswahl für Basismodelle (natürlich gesammelte Massendaten), das Lernparadigma (Anlehnung an Sprachmodelle, aber Anpassung an die Vision) konzentrieren. Visuelle Darstellung, Generierungsmethoden (nicht unbedingt Vorhersage von Tokens), wie man visuelle Verständnis Fähigkeiten bewertet usw. sind allesamt riesige Herausforderungen. Der visuelle Bereich befindet sich möglicherweise in der Phase nach BERT und vor GPT-3 in NLP und wird dann einen ähnlichen Prozess wie von GPT-3 zu ChatGPT durchlaufen müssen.

CSDN: Wenn synthetische Daten nicht zum Training von Basismodellen verwendet werden können, wird dies in der Praxis ein großes Problem darstellen, richtig? Wie gehen Sie damit um?

Duan Nan: Das ist in der Tat ein großes Problem. Wir können uns am Weg von NLP zu Multimodalität orientieren: Zuerst ein großes Sprachmodell in NLP aufbauen, dann visuelle Informationen hinzufügen und das unimodale Modell mit einer geringen Menge an Bild-Text-Ausrichtungsdaten zu einem multimodalen Modell feinabstimmen.

Obwohl uns eine große Menge an natürlichen Bild-Text-Ausrichtungsdaten fehlt, gibt es sehr viele reine Text-, reine Bild- und reine Videodaten. Ich glaube, wir können zuerst ein Basismodell wie ein Sprachmodell unter einer bestimmten Unimodalität (wie Vision) aufbauen, seine eigenen Fähigkeiten verbessern und dann eine übermodale Feinabstimmung vornehmen. Zu diesem Zeitpunkt wird die benötigte Menge an Ausrichtungsdaten viel geringer sein. Dies ist ein komplementärer Weg, der sich vom End-to-End nativen Multimodal unterscheidet.

CSDN: Wenn wir die Entwicklung von NLP von BERT zu GPT analogisieren, in welchem Stadium befindet sich Ihrer Meinung nach die Videogenerierung derzeit? Wann wird voraussichtlich ein Moment ähnlich ChatGPT erreicht werden?

Duan Nan: Das ist noch weit entfernt. Ich habe das Gefühl, dass Basismodelle im visuellen Bereich in den nächsten ein bis zwei Jahren entstehen werden. Erstens werden ähnliche Modelle für Videoinhalte aufkommen; zweitens werden sie in Kombination mit multimodaler KI entscheidende visuelle Verständnis Fähigkeiten sowohl für bestehende Verständnisaufgaben als auch für aktuelle heiße Themen wie verkörperte Intelligenz, Agenten und Robotik bereitstellen. Wenn dieser Schritt gut gemacht wird, ist er ein wichtiger Grundstein für die nächste Phase der Anwendungen und Forschung.

CSDN: Glauben Sie also, dass die Entwicklung von Videogenerierungs-Basismodellen in Zukunft mit Bereichen wie verkörperter Intelligenz kombiniert wird?

Duan Nan: Aus Sicht der AGI geht es darum, einen "intelligenten Agenten" zu schaffen, der in bestimmten Dimensionen die Menschen weit übertrifft, aber im Großen und Ganzen menschliche Funktionen besitzt. Menschen nehmen Informationen sequenziell wahr, ähnlich wie Video. Daher dient die Entwicklung des visuellen Verständnisses hauptsächlich dazu, zukünftigen intelligenten Agenten (verkörperte Intelligenz, Roboter usw.) mächtigere temporale visuelle Verständnis Fähigkeiten bereitzustellen.

Aus Sicht der AIGC kann sich in Zukunft jeder selbst in Filme bringen und mit Leuten zusammenarbeiten, mit denen er zusammenarbeiten möchte.

Derzeit gibt es mehrere Trends bei AIGC:

Die Länge der Videogenerierung nimmt zu, was die Erzählkraft verbessert;

Die Bearbeitungsfähigkeit verbessert sich ständig, was die Steuerbarkeit erhöht;

Die auf Referenzen basierende Bild-/Videogenerierung entwickelt sich schnell, sodass in Zukunft jeder zum Protagonisten werden kann.

CSDN: Sind die von Ihnen geteilten sechs großen Herausforderungen in einer bestimmten Reihenfolge (z.B. nach Schwierigkeit) angeordnet?

Duan Nan: Sie sind von einer pragmatischen zu einer mittel- bis langfristigen Perspektive angeordnet. Pragmatisch ist die Datenebene; weiter ist die Anwendungsebene, die Effizienz, Befolgung von Anweisungen, Interaktion bei mehrfacher Bearbeitung berücksichtigt; noch weiter, meiner Meinung nach, ist es nicht nur AIGC, sondern die Entwicklung von KI selbst, wie z.B. Weltmodelle.

CSDN: Weltmodelle stehen also im Zusammenhang mit dem endgültigen (oder entscheidenden) Punkt von AIGC, den alle erreichen wollen. Hat Ihr Team bezüglich dieser sechs großen Herausforderungen entsprechende Optimierungs- oder Verbesserungspläne in der technischen Roadmap?

Duan Nan: Ja, es gibt Pläne. Einerseits werden wir in grundlegenden Modulen (Datenannotation, Videorepräsentation, Modellstruktur) solidere Erfahrungen sammeln, kontinuierlich iterieren und optimieren, uns wie ein Produkt verbessern. Andererseits werden wir eine kleine Menge Ressourcen in zukünftige Erkundungen investieren. Wir dürfen nicht nur Nachahmer sein, sondern müssen versuchen, innovative Dinge zu tun, auch wenn die Wahrscheinlichkeit gering ist.

CSDN: In Ihrer abschließenden Zusammenfassung über die Zukunft erwähnten Sie Änderungen im Modellparadigma, Lernparadigma und der Modellfähigkeit. Steht dies in Zusammenhang mit der wahren Innovation, die Sie erreichen wollen? Können Sie Ihre grundlegenden Ideen teilen?

Duan Nan:

Änderung des Modellstrukturparadigmas: Entwicklung von reinen Diffusion-Modellen hin zur Fusion von Autoregressive und Diffusion.

Änderung des Lernparadigmas: Wechsel vom Mapping Learning von Text zu Video zu einem Lernen der Vorhersage kausaler Zusammenhänge wie bei Sprachmodellen.

Änderung der Fähigkeiten: Aus Sicht der AIGC ist es die Generierungsfähigkeit, aber ihre Generalisierungsfähigkeit ist nicht so gut wie die von Sprachmodellen. Die stärkste Fähigkeit eines Basismodells sollte Few-Shot Learning sein, d.h. die Fähigkeit, eine neue Aufgabe mit einer geringen Anzahl neuer Task-Samples schnell zu lösen. Analog zur Vision könnte das Modell in Zukunft einige Beispiele für Spezialeffekte (wie das Zerplatzen eines Objekts) sehen und dann direkt einen ähnlichen Effekt ausgeben, ohne zusätzliches Training.

CSDN: Diese Veränderungen, die Sie sich vorstellen, klingen sehr langfristig.

Duan Nan: Viele Dinge entwickeln sich sehr schnell. Vor November 2022 dachte ich noch, dass ich mein Leben lang an NLP arbeiten könnte, aber dann änderte sich die Situation schnell. Daher könnten diese scheinbar langfristigen Dinge, vielleicht in vereinfachter Form oder in Zwischenstadien, schnell erscheinen.

CSDN: Wie schnell ist dieses "schnell" genau? Welche wichtigen Dinge erwarten Sie in den nächsten ein bis zwei Jahren?

Duan Nan: Mein persönliches Gefühl ist ein bis zwei Jahre. Wichtige Dinge wie: Wird im visuellen Bereich ein Moment ähnlich GPT-3 erscheinen? Können multimodale Modelle Text, Bilder und Videos wirklich vereinen? Wenn dies erreicht werden kann, wird es bemerkenswert sein, und jeder wird wirklich darüber nachdenken müssen, was als Nächstes zu tun ist.

CSDN: Nachdem Sie ein Jahr "verschwunden" waren, sind Sie wieder aufgetaucht. Können Sie die drei tiefgreifendsten Erfahrungen teilen, die Sie in diesem Jahr gesammelt haben? Was waren die Veränderungen in Ihrer Erkenntnis und was blieb unverändert?

Duan Nan:

Erweiterung des Skill-Stacks: In der Vergangenheit habe ich mich vielleicht zu sehr auf Algorithmen und die sogenannte Innovation selbst konzentriert und die Bedeutung von Daten und Systemen in großen Projekten vernachlässigt. In diesem Jahr habe ich in diesem Bereich Erfahrungen gesammelt.

Benutzerfreundlichkeit: Projekte sollten nicht nur akademische Grenzen verfolgen, sondern auch die Benutzerfreundlichkeit berücksichtigen, insbesondere in verschiedenen Umgebungen. Eine einflussreiche Forschung muss in dieser Zeit von den Menschen genutzt werden können.

Kognitive Veränderung: Ich habe ein tieferes Verständnis für die Beziehung zwischen technologischer Innovation und breiter Anwendung erlangt.

Unverändert: Mein Streben nach Technologie selbst hat sich nie geändert. Im Großen und Ganzen glaube ich, dass einige Dinge letztendlich geschehen werden, und das Ziel, in diese Richtung zu gehen, hat sich nicht geändert.

CSDN: In dieser sich schnell ändernden Zeit großer Modelle sind technologische Durchbrüche unvorhersehbar. Was halten Sie in dieser Unsicherheit für sicher?

Duan Nan: Als jemand, der seit vielen Jahren in der Forschung tätig ist, glaube ich, dass einige makroskopische Trends sicher sind. Obwohl je nach Plattform und Phase Anpassungen vorgenommen werden, wird sich das Ziel, in die große Richtung voranzugehen, nicht ändern.

CSDN: Im multimodalen Bereich, was wird Ihrer Meinung nach definitiv erreicht werden?

Duan Nan: Die Vereinheitlichung des Verständnisses und der Generierung von Sprache und Vision. In Zukunft werden die Menschen Geräte bequemer nutzen können, um Inhalte jenseits von Text (Bilder, Umgebung) wahrzunehmen, und auch besser Inhalte für soziale, berufliche oder Hobbyzwecke erstellen können. Es wird mehr Möglichkeiten für jeden geben, ein Selbstmedienmacher zu sein. Ich habe zuvor an einer Jahreskonferenz teilgenommen und gesehen, wie Content-Ersteller sehr komplexe Pipelines aufgebaut haben, was mich glauben ließ, dass kreative Menschen Technologie integrieren und nutzen werden; das ist sehr beeindruckend.

CSDN: Anfang des Jahres dachten alle, dass der Textbereich relativ ausgereift sei und multimodale Ergebnisse noch nicht offensichtlich seien. Glauben Sie, dass dieses Ergebnis 2025 oder 2026 eintreten wird? Können Sie etwas spezifischer werden?

Duan Nan: Ich habe das Gefühl, dass im nächsten Jahr zumindest das Verständnis und die Generierung von Bildern und Text, wie bei GPT-4o, sehr gut funktionieren und viele praktische Probleme lösen können, z.B. kleine Unternehmen, die Anzeigen mit Bildern und Text erstellen.

Weiter geht es:

Anwendungsebene: Neue KI-Anwendungen sind derzeit unsicher; es könnte Entwicklungen in der Zukunft geben.

Modellebene: Multimodale Modelle werden sich in Richtung der physischen Welt entwickeln und die Vision besser wahrnehmen, z.B. Aktionsverständnis. In diesem Bereich wird es immer mehr solide Ergebnisse geben.

CSDN: Jemand im Live-Stream fragt, welche KI-Assistenten Herr Duan benutzt. Wie sind Ihre KI-Nutzungsgewohnheiten?

Duan Nan: Ich benutze einige davon. Einschließlich Step Aheads eigenem "Step Ahead AI" Assistenten, DeepSeek usw. Da ich bei Microsoft gearbeitet habe, habe ich auch einige Gewohnheiten der Nutzung von ChatGPT beibehalten.

CSDN: Wie war Ihr Arbeitszustand im letzten Jahr? Wie viel Überstunden haben Sie gemacht?

Duan Nan: Ich denke, passive Zeit nennt man Überstunden, aktive Zeit nennt man nicht Überstunden. Die Leute in unserem Team sind selbstmotiviert und müssen nicht explizit angewiesen werden.

CSDN: Das bedeutet, dass alle freiwillig engagiert sind, einerseits viele Fallstricke erleben und andererseits das Gefühl haben, dass es etwas ist, das sie tun wollen.

Duan Nan: Ja, so ist es.

CSDN: Vielen Dank für Ihre Ausführungen, Herr Duan. Ich hoffe, Sie können in Zukunft öfter herauskommen und sich mit allen austauschen.

Duan Nan: Gut, danke euch allen.

图片

Die 2025 Global Machine Learning Technology Conference Shanghai Station ist erfolgreich zu Ende gegangen. Diese Konferenz konzentrierte sich auf die neuesten Entwicklungstrends und praktischen Anwendungen der KI und behandelte 12 Hauptthemen, darunter die Evolution der Technologie großer Sprachmodelle, KI-Agenten, verkörperte Intelligenz, DeepSeek-Technologieanalyse und Industriepraxis. Über 60 hochkarätige Gäste von führenden globalen Technologieunternehmen und akademischen Institutionen kamen zusammen, um die technischen Trends und Anwendungsfelder der KI umfassend darzustellen.

Scannen Sie den QR-Code unten, um die PPT der "2025 Global Machine Learning Technology Conference Shanghai Station" kostenlos zu erhalten.

图片

Hauptkategorie:KI-Videogenerierung

Unterkategorien:BasismodelleVerkörperte KIMultimodale KIDiffusionsmodelle


Vorheriger:Nature-Tochterzeitschrift: Menschen haben wieder gegen KI verloren, besonders wenn sie weiß, wer Sie sind

Nächster:Multimodale große Modelle versagen kollektiv, GPT-4o nur 50% Sicherheitspassrate: SIUO enthüllt Blindstellen in der plattformübergreifenden Sicherheit

Kurz-URL teilen