對話階躍星辰段楠:「我們可能正觸及 Diffusion 能力上限」

图片

「具備更深層次理解能力的視覺領域基礎模型(可能帶來視覺的“GPT-3時刻”),有望在未來 1-2 年內出現。」

對話 | 唐小引,CSDN&《新程式設計師》執行總編

嘉賓 | 段楠,階躍星辰 Tech Fellow

責任編輯丨張紅月

出品 | AI 科技大本營(ID:rgznai100)

這場由 AI 驅動的視覺內容革新浪潮中,階躍星辰的 Tech Fellow、前微軟亞洲研究院資深研究員段楠,正站在探索的前沿。其團隊在今年 2 月和 3 月開源兩個重要的影片生成模型 —— 30B 參數的文生影片模型 Step-Video-T2V,以及基於此訓練的 30B 參數圖生影片模型 Step-Video-TI2V,在 AI 影片生成領域引起了廣泛關注。

段楠清醒地指出,儘管目前的影片生成技術(如 Diffusion 模型)已能產出驚豔的視覺片段,但我們可能正觸及其能力的“天花板”,真正的、具備深度理解能力的影片乃至多模態基礎模型,其革命性的突破尚在孕育之中。

图片

段楠,階躍星辰Tech Fellow,帶領研究團隊建構以語言和影片為中心的多模態基礎模型。此前,他曾任微軟亞洲研究院資深首席研究員、自然語言計算團隊研究經理(2012年至2024年)。段博士是中國科學技術大學和西安交通大學兼職博導,天津大學兼職教授。他主要從事自然語言處理、程式碼智慧、多模態基礎模型、智慧體等研究。

在 4 月 18-19 日舉行的 2025 全球機器學習技術大會(ML-Summit)上,段楠就“影片生成基礎模型的進展、挑戰與未來”發表了主題演講,並在會後接受了 CSDN 的深度直播專訪。

段楠預測道,具備更深層次理解能力的視覺領域基礎模型(可能帶來視覺的“GPT-3時刻”),有望在未來 1-2 年內出現。

為什麼他會有此判斷?在這場資訊量巨大的對話中,段楠分享了多個關於影片生成及多模態 AI 未來的核心洞察:

影片 Scaling Law 的獨特性: 與語言模型不同,目前 Diffusion 影片模型(即便達到 30B 參數)在泛化能力上的 Scaling Law 表現並不顯著,但其記憶能力很強。中等規模參數(如 15B)可能在效率與性能間取得更好平衡。

超越“生成”到“理解”: 目前主流影片生成類似“文字到視覺的翻譯”,存在上限。真正的突破在於模型需具備深度視覺理解能力,而非僅僅像素生成,這需要學習範式的轉變,從“映射學習”到類似語言模型的“因果預測學習”。

AR 與 Diffusion 融合: 未來的模型架構趨勢可能是自迴歸(Autoregressive)與擴散(Diffusion)模型的融合,以期結合兩者優勢,更好地服務於影片乃至多模態內容的理解與生成。

資料仍是基石與瓶頸: 高品質、大規模、多樣化的自然資料(而非過度依賴合成資料進行基礎訓練)對建構強大的基礎模型至關重要。資料處理、標註的複雜性與成本是巨大挑戰。

視覺的“Few-Shot Learning”時刻: 下一代視覺基礎模型的關鍵能力將是強大的少樣本學習(Few-Shot Learning)能力,使其能快速適應並解決新的視覺任務,類似 GPT-3 為 NLP 帶來的變革。

可用性與影響力並重: 技術創新固然重要,但模型的易用性、能否被廣大開發者和創作者實際使用起來,是衡量其影響力的關鍵,也是研究需要兼顧的目標。

AI 與具身智慧的未來: 影片理解能力的進步,將為具身智慧、機器人等需要與物理世界互動的 AI 應用提供核心的感知能力。

這篇專訪將帶您深入剖析影片生成乃至多模態 AI 領域的前沿思考、技術瓶頸與未來藍圖,無論您是 AI 研究者、開發者還是對未來科技充滿好奇的觀察者,都能從中獲得深刻啟發。

以下是與段楠老師的正式訪談:(為方便閱讀,編輯進行了適當的文本優化)

CSDN:我們邀請到的是期待已久,現在在階躍星辰擔任 Tech Fellow 的段楠老師。段老師,請先給大家打個招呼,做一下自我介紹。

段楠:大家好,我叫段楠。現在在階躍星辰工作,主要負責影片生成相關的專案。在此之前,我在微軟亞洲研究院從事了十多年的自然語言處理研究。今天非常榮幸能以這種直播的形式和大家交流,這對我來說是第一次。

CSDN:這是您第一次參加直播嗎?

段楠:是的,真的是第一次。

CSDN:那太榮幸了,段老師的直播首秀獻給了 CSDN 直播間。

段楠:這是我的榮幸。

CSDN:我注意到您在階躍星辰的 Title 是“Tech Fellow”,這在創業公司中比較少見,一般外企會更常用。您可以介紹一下這個 Title 的考慮嗎?

段楠:這個 Title 的形式不必太在意。我本質上還是一名研究員,在繼續深入研究自己感興趣的領域,只是換了個工作平台。

CSDN:段老師在全球機器學習技術大會上帶來了關於“影片生成基礎模型的進展、挑戰與未來”的分享,這也是您加班加點準備的最新成果。可否請您先簡要介紹一下演講的核心內容,特別是希望大家關注的重點?

段楠:今天的報告算是我過去一年在階躍星辰所做專案的一個階段性總結。我之前在微軟亞洲研究院時,研究興趣就逐漸從自然語言處理、多語言、程式碼智慧轉向多模態。在階躍星辰,我將之前在視覺影片生成方面的探索,結合公司需求,從零到一地實踐起來。

報告主要介紹了我們在 2 月和 3 月開源的兩個模型:30B 參數的文生影片模型 Step-Video-T2V,以及基於此訓練的 30B 參數圖生影片模型 Step-Video-TI2V。這份報告相對中規中矩,主要梳理了這個方向在現階段 SOTA(State-of-the-Art)模型的方方面面,包括模型結構設計、資料處理流程、訓練效率最佳化等。

透過從 4B 到 30B 模型的研發,我意識到當前這代基於 AIGC 的影片生成模型範式可能存在上限。報告結尾也簡要提及了對未來的一些想法和規劃。

CSDN:您提到報告中規中矩,沒有過多體現科研上的技術創新。那能否先分享一下您認為的、在 AI 領域近五年稱得上里程碑式的技術創新有哪些?

段楠:從我的標準來看,近五年 AI 領域的重大創新包括:

BERT 模型:它極大地提升了自然語言的表徵能力。之後 NLP 領域形成了編碼器(如 BERT)、編碼器-解碼器(如 T5)和純解碼器(如 GPT)三足鼎立的局面。

GPT-3 模型:當資料和參數規模達到一定程度後,展現出的少樣本學習(few-shot learning)能力是一個里程碑,基本確立了模型架構的方向。

InstructGPT/ChatGPT:透過指令對齊和強化學習(RLHF),使得模型能極好地遵循指令,這是又一個重大里程碑,基本奠定了 NLP 的範式。

DeepSeek 系列模型:在國內,DeepSeek 做出了一系列非常出色的模型(如Math、Code、V 系列及 R1),不僅性能優異,且能讓大家實際用起來,非常了不起。

Sora 模型:在多模態生成領域,Sora 的出現真正讓影片生成成為焦點。

GPT-4o/Gemini 2.5:這類模型真正將圖像和文字的統一理解推向了新的高度,非常關鍵。

CSDN:您認為目前的工作與 Sora 等帶來的效應相比尚有距離,但打好基礎是走向那個方向的前提。能否分享一下在基礎設施建構(Infra)方面,您踩過的坑以及學到的經驗,給其他團隊一些借鑒?

段楠:這個專案除了我們團隊成員的努力,也得到了公司資料庫團隊和系統團隊的大力支援。從模型、資料、系統三方面分享一些經驗:

模型層面

Full Attention:早期嘗試過時空分離再堆疊的結構,後來發現 Full Attention 機制能讓資訊在模型內部充分互動,對運動幅度提升很大,這已是共識。

架構選擇(DIT + Cross Attention vs MMDIT):我們選擇了 DIT 加 Cross Attention,而像 Meta 的 Movie Gen 和阿里巴巴的萬相(Wan)也是類似架構。一些閉源模型或大廠可能傾向於 MMDIT(盡早融合文字和視覺資訊)。理論上 MMDIT 對指令控制可能更好,但我們選擇前者也考慮了模型未來向視覺基礎模型演進的兼容性。這並非最優選擇,各有優劣。

模型規模(30B):選擇 30B 是為了探索模型規模與效果的關係。結論是,Diffusion 模型的 Scaling Law 在 4B 到 30B 區間,泛化能力提升不如語言模型明顯,但記憶能力很強。對於追求效率和性能平衡,15B 左右可能是個不錯的選擇。若要探索 AGI 或模型上限且資源充足,可以繼續調優或嘗試更大模型。

資料層面

資料處理至關重要。包括影片切割、浮水印字幕處理、內容描述、美感度、運動性、清晰度、鏡頭抖動、鏡頭語言標註等,都需要投入巨大精力,並且要親力親為。

系統層面

擁有強大的系統團隊支援非常關鍵。在此也感謝階躍星辰的系統團隊,他們非常強大,我從他們身上學到很多,對專案的支援至關重要。

CSDN:在多模態模型實踐中,如果必須選一個最棘手且最關鍵的環節,如果做不好整個模型專案都無法推進,您覺得是什麼?

段楠:這取決於前提條件。如果資源充足,資料是最棘手的。如果資源相對有限,那麼資料和系統都會變得非常棘手。從模型演算法本身來說,如果不刻意強調下一代或新穎性,目前主流 AI 領域多數 Topic 的模型架構是相對明確的。在這些架構之上,訓練、調參、推理的細節非常多。對於相對確定性高的專案,目前看來,系統和資料的重要性可能大於演算法本身。

CSDN:您提到最初對 30B 參數模型的效​​果是打問號的,實踐後感覺中等參數或許已足夠。那未來還會繼續探索更大參數的模型嗎?

段楠:會的,但這有個前提。我說中等參數模型 OK,是因為在階躍星辰,我們需要考慮應用層面的挑戰,即效率和品質的平衡。

但從另一個角度看,我認為當前 Diffusion 這代模型的上限是存在的。要向前走,影片模型需要更強地遵循物理規律,並且不僅僅是做生成。NLP 領域的成功模型是透過生成的方式獲得了更強的理解能力,生成只是展示結果的方式。影片領域也應如此,透過類似範式讓視覺模型具備更強的視覺理解能力。這種能力在 NLP 那邊可能需要幾十 B 以上的參數才能湧現出 in-context learning。

現在的影片生成模型,其訓練資料是“文字描述 -> 視覺影片”,這和十幾年前的機器翻譯類似。而成功的 NLP 模型是透過預測下一個 token 的方式,學習資訊中的因果和上下文關係。

因此,從模型規模上看,之所以還要探索更大模型,以及我為何選擇 DIT+Cross Attention 結構,是因為我認為影片有機會成為像大語言模型那樣的、在視覺領域的理解與生成統一的模型,並能與語言無縫結合。這是我們團隊近期在探索的方向。

CSDN:您剛才提到了影片生成在未來一到兩年內面臨的挑戰,以及您對下一代模型的思考。目前工業界和學術界在這些方向上,有哪些探索進展是您認為值得關注的?或者說,您觀察到的解決方案是怎樣的?以及您後面提到的 Scaling Law 問題。

段楠:在多模態理解與生成統一模型方面,目前一個大方向是自迴歸(Autoregressive)與 Diffusion 的融合。單純將視覺訊號轉為離散 token,我們早先在微軟時就做過,發現對生成品質損失較大。因此,用連續表徵做視覺理解生成是比較正確的方向。

目前純視覺生成領域 Diffusion仍是SOTA,但NLP成功模型多為Autoregressive。我個人看好的方向是:自迴歸與 Diffusion 的融合。

將影片融入該框架,這會帶來新挑戰。圖像生成一幀,錯誤累積問題不大;但影片長達幾百甚至上千幀,純 AR 方法會有嚴重的錯誤累積。

AR 模型逐 token 預測效率極低,對影片尤其如此。NLP 中的稀疏機制(MoE、MRA 等)未來可能會應用於視覺生成與理解模型。

保證長影片的一致性、運動規律、訓練推理效率,每一塊都是巨大挑戰。

CSDN:我使用影片生成工具時,常感生成速度慢,等待時間長。雖然相比人工製作影片已快很多,但如何進一步提升速度和品質,同時延長生成時長,這應該是你們核心要解決的問題吧?

段楠:是的。就像翻譯技術的發展,從少數人掌握到人人可用。影片生成也在經歷類似過程,降低了內容創作門檻。如何讓創作者以更低成本、更快地獲得高品質結果,是我們需要努力的方向。我相信語言模型領域發生的事情,在視覺領域同樣會發生,未來能透過下一代大模型更好地支持高品質內容創作。

核心是推理速度和品質保證。目前一些好的生成案例,更像是模型在訓練資料中見過類似分佈的內容較多,形成了“下意識”反應。

CSDN:您前面提到開源的 Step-Video 的兩個模型,能否介紹一下它們的效果如何?以及開源後社群、學術界或工業界的迴響是怎樣的?

段楠:我們的兩個模型各有特色:

文生影片模型 Step-Video-T2(30B):在影片運動性上做了加強,主要透過資料和訓練策略實現。在體育運動、物理規律遵循方面表現不錯。今年 1 月底 2 月初發布時,與國內外主流模型對比,在開源模型中應屬 SOTA,在某些維度上也很有特色。

圖生影片模型 Step-Video-TI2V(30B):由於訓練初期接觸了大量二次元動漫資料,因此在這類風格上品質很好。我們也與萬興等產品做過對比。

CSDN:您團隊目前規模多大?是包含了模型、資料、系統所有部分嗎?

段楠:算上實習生大概十幾個人。做這個專案時人更少。資料和系統部分有其他組的同事支援。

CSDN:那社群的主要迴響是什麼?

段楠:最大的迴響是模型太大了(30B),普通 AIGC 創作者難以駕馭。

這確實給了我啟示:一個綜合可用的模型,在應用社群比一個追求上限的模型下載量更大。模型不僅要追求上限,也要考慮易用性,讓開發者和創作者能用起來。這點之前確實考慮不多,因為當時更關心模型上限和最終能力,這關係到是否需要下一代模型。

CSDN:所以未來是向上探索上限,向下兼顧易用性,大小模型都會做嗎?

段楠:是的,大模型要有對標的小模型,這是上限和應用的折中。而且大模型的成果對小模型品質提升很關鍵,這在影片領域也會發生。

不過,從我個人角度,接下來我更關注影片理解生成、多模態理解生成的下一代模型架構。可能會先在小模型上做架構探索,驗證後再考慮放大。

CSDN:您在演講中總結了六大挑戰,這與您剛才提到的影片理解的挑戰有何區別?

图片

段楠:如果針對 AIGC,追求效率、可控性、編輯性、高品質資料就尤為重要。這是在當前基礎上做更好模型,需要不斷打磨資料和模型模組(VAE、Encoder、DIT、後訓練 SFT/RLHF/DPO 等)。

但從 AI 整體角度看,視覺基礎模型需要更強的理解能力,這需要在學習範式上做改變。我認為 Diffusion 這種學習方式不太可能學到通用理解能力,需要像 NLP 那樣做自迴歸式的預測學習。

一旦轉向這種範式,效率、對齊等問題可能會先放一邊,我認為對於基礎模型,一定是資料驅動的,而非偽造的資料驅動,不能是合成資料。因此我們需要更關注基礎模型的資料選擇(自然累積海量資料)、學習範式(借鑒語言模型,但需適配視覺)。視覺表徵、生成方式(不一定是 predict token)、如何評斷視覺理解能力等都是巨大挑戰。視覺領域可能正處在 NLP 中 BERT 之後、GPT-3 之前的階段,之後還要經歷類似 GPT-3 到 ChatGPT 的過程。

CSDN:如果不能用合成資料來訓練基礎模型,這在實踐中會遇到很大問題吧?您如何應對?

段楠:確實問題很大。可以借鑒 NLP 到多模態的路徑:先在 NLP 上建構大語言模型,再接入視覺資訊,透過少量圖文對齊資料將單模態模型調優為多模態。

雖然我們缺乏大量自然的圖文對齊資料,但純文字、純圖像、純影片資料非常多。我認為可以在某個單模態(如視覺)下先建構出像語言模型那樣的基礎模型,增強其自身能力後,再去做跨模態調優,屆時所需對齊資料量會少很多。這是一個與端到端原生多模態不同的、可互補的路徑。

CSDN:如果類比 NLP 從 BERT 到 GPT 的發展,您認為影片生成目前處於哪個節點?預計何時能達到類似 ChatGPT 的時刻?

段楠:差遠了。我感覺未來一到兩年,視覺領域的基礎模型會出現。第一,針對影片內容的類似模型會出來;第二,與多模態結合後,無論是對現有理解任務,還是對當前熱門的具身智慧、Agent、機器人等,都將提供關鍵的視覺理解能力。這一步如果走好,對下一階段的應用和研究都是重要基石。

CSDN:所以您認為影片生成基礎模型的發展,未來會與具身智慧等方向結合嗎?

段楠:從 AGI 的角度看,就是要創造一個在某些維度遠超人類,但大體具備人類功能的“智慧體”。人類接收資訊是時序連續的,類似影片。所以,視覺理解的發展,主要是為未來的智慧體(具身智慧、機器人等)提供更強大的時序視覺理解能力。

從 AIGC 角度看,未來人人可能都可以把自己拍進電影,與想合作的人一起創作。

目前 AIGC 有幾個趨勢:

影片生成長度變長,增強敘事性;

編輯能力不斷提升,增強可控性;

基於參考的圖像/影片生成發展迅速,未來人人都可以當主角。

CSDN:您分享的六大挑戰,是按某種順序(如棘手程度)排列的嗎?

段楠:是按照從務實到中長期的角度排列的。務實的是資料層面;進一步是應用層面,考慮效率、指令遵循、多輪編輯互動;再往前,在我看來就不僅是AIGC,而是 AI 本身的發展,比如世界模型。

CSDN:所以世界模型關係到大家希望實現的 AIGC 的最終(或關鍵)節點。針對這六大挑戰,您團隊在技術路線上有相應的最佳化或完善計畫嗎?

段楠:有計畫。一方面,在基礎模組(資料標註、影片表示、模型結構)上累積更紮實的經驗,不斷迭代最佳化,像產品一樣持續改進。另一方面,會投入少量資源進行未來探索。不能只做追隨者,要嘗試做一些有創新的事情,儘管機率很低。

CSDN:您在最後總結 Future 時提到模型範式、學習範式和模型能力的變化,這是否關係到您希望實現的真正創新?能否分享一下您的基本想法?

段楠:

模型結構範式變化:從純 Diffusion 模型向 Autoregressive 與 Diffusion 融合的方向發展。

學習範式變化:從文字到影片的映射學習,轉變為像語言模型那樣對因果關係進行預測的學習。

能力變化:AIGC 角度是生成能力,但其泛化性不如語言模型。基礎模型最強的能力應是 few-shot learning,即在少量新任務樣本下快速解決該類問題。類比視覺,未來可能給模型看幾個特效(如物體捏爆)的例子,它就能直接輸出類似效果,無需額外訓練。

CSDN:您設想的這些變化聽起來非常長期。

段楠:很多事情發展很快。2022 年 11 月前我還覺得 NLP 可以做一輩子,後來發現形勢變化迅速。所以這些聽起來長期的事情,或許其簡化版或中間階段會很快出現。

CSDN:這個“很快”具體是多久?您預估一到兩年內會發生哪些重要的事情?

段楠:我個人感覺是一到兩年。重要的事情比如:視覺領域是否會出現類似 GPT-3 的時刻?多模態模型能否將文字、圖像和影片真正統一起來?如果這些能達成,將非常了不起,大家真的要思考後續該做什麼了。

CSDN:您“消失”一年後重新露面,可否分享一下這一年中學到的、讓您覺得最深刻的前三條經驗?其中有哪些是認知上的變化,又有哪些是不變的?

段楠:

技能棧拓展:過去我可能過多關注演算法和所謂創新本身,忽視了資料和系統在大型專案中的重要性。這一年在這方面累積了經驗。

可用性:專案不僅要追求學術上限,還要考慮可用性,尤其是在不同環境下。一個有影響力的研究,在這個時代一定要能被人用起來。

認知變化:更深刻理解了技術創新與廣泛應用之間的關係。

不變的:對技術本身的追求始終沒有變過。大的方向上,我相信一些事情終究會發生,向這個大方向努力的目標沒有變。

CSDN:在大模型這個多變的時代,技術突破難以預料。在這種不確定性中,您認為可以確定的是什麼?

段楠:作為在研究領域多年的人,我相信一些宏觀趨勢是確定的。雖然平台和階段不同會做調整,但向著大方向前進的目標是不會變的。

CSDN:在多模態領域,您覺得最終一定會實現的是什麼?

段楠:語言和視覺的理解與生成的統一。未來大家會更便捷地使用裝置去感知文字以外的內容(圖像、環境),也能更好地創作滿足社交、工作或嗜好的內容。人人都是自媒體的機會更多了。我之前參加一個年會,看到內容創作者能搭建出非常複雜的pipeline,這讓我相信有創意的人會把技術整合並用起來,非常厲害。

CSDN:年初展望時,大家覺得文字領域已相對成熟,多模態結果尚不明顯。您認為這個結果會在 2025 年還是 2026 年出現?能否更具體一點?

段楠:我感覺接下來一年,至少像 GPT-4o 這樣圖像和文字的理解生成會做得非常好,能解決很多實際問題,比如小商家製作圖文並茂的廣告。

再往下走:

應用層面:AI新型應用目前還不確定,未來可能會發展。

模型層面:多模態模型會向物理世界發展,更好地感知視覺,比如動作理解等。這方面成果會越來越多、越來越紮實。

CSDN:直播間有人問段老師在用哪些 AI 助手?您的 AI 使用習慣是怎樣的?

段楠:都會用一些。包括階躍自己的“階躍 AI”助手,DeepSeek 等。因為曾在微軟工作,也保留了使用 ChatGPT 的一些習慣。

CSDN:您過去一年的工作狀態是怎樣的?加班程度如何?

段楠:我認為被動的時候叫加班,主動的時候就不叫加班。我們團隊的人都是自驅型的,不需要刻意要求。

CSDN:說明大家是自發投入,一邊覺得踩了很多坑,一邊又覺得這是自己想做的事情。

段楠:是的,是這樣的。

CSDN:非常感謝段老師的分享,希望您以後能多多出來和大家交流。

段楠:好,謝謝大家。

图片

2025 全球機器學習技術大會上海站已圓滿結束,本次大會圍繞 AI 最前沿的發展趨勢與落地實踐,聚焦大語言模型技術演進、AI 智慧體、具身智慧、DeepSeek 技術解析與產業實踐等 12 大專題,邀請了超 60 位來自全球頂尖科技企業與學術機構的重磅嘉賓齊聚一堂,全面呈現 AI 領域的技術風向與應用前沿。

掃描下方二維碼免費領取「2025 全球機器學習技術大會上海站」大會 PPT。

图片

主標籤:影片生成AI

次標籤:基礎模型具身智能多模態AI擴散模型


上一篇:Nature子刊:人類又輸給了AI,尤其是當它知道你是誰時

下一篇:多模态大模型集体翻车,GPT-4o仅50%安全通过率:SIUO揭示跨模态安全盲区

分享短網址