「より深い理解能力を備えた視覚分野の基盤モデル(視覚における「GPT-3モーメント」をもたらす可能性あり)は、今後1~2年以内に出現することが期待されています。」
対話 | 唐小引、CSDN&『新プログラマー』執行総編集長
ゲスト | 段楠、階躍星辰 Tech Fellow
責任編集丨張紅月
提供 | AI技術大本営(ID:rgznai100)
AI主導の視覚コンテンツ革新の波の中で、階躍星辰のTech Fellowであり、元マイクロソフトアジア研究所シニアリサーチャーである段楠氏は、探索の最前線に立っています。彼のチームは、今年2月と3月に2つの重要な動画生成モデルをオープンソース化しました。30Bパラメータのテキスト・トゥ・ビデオモデルStep-Video-T2Vと、これに基づいて訓練された30Bパラメータの画像・トゥ・ビデオモデルStep-Video-TI2Vは、AI動画生成分野で広く注目されました。
段楠氏は冷静に指摘します。現在の動画生成技術(Diffusionモデルなど)は素晴らしい視覚セグメントを生成できますが、その能力の「天井」に触れている可能性があります。真の、深い理解能力を備えた動画およびマルチモーダル基盤モデルの革新的なブレークスルーは、まだ準備段階にあります。
段楠氏は、階躍星辰のTech Fellowであり、言語と動画を中心としたマルチモーダル基盤モデル構築の研究チームを率いています。以前は、マイクロソフトアジア研究所でシニアプリンシパルリサーチャー、自然言語計算チーム研究マネージャー(2012年~2024年)を務めていました。段博士は、中国科学技術大学および西安交通大学の兼任博士課程指導教員、天津大学の兼任教授です。主に自然言語処理、コードインテリジェンス、マルチモーダル基盤モデル、エージェントなどの研究に従事しています。
4月18日~19日に開催された2025グローバル機械学習技術大会(ML-Summit)で、段楠氏は「動画生成基盤モデルの進捗、課題、未来」について基調講演を行い、会議後にCSDNのディープライブインタビューを受けました。
段楠氏は予測します。より深い理解能力を備えた視覚分野の基盤モデル(視覚における「GPT-3モーメント」をもたらす可能性あり)は、今後1~2年以内に出現することが期待されています。
なぜ彼はこのような判断を下したのでしょうか?この情報量の多い対話で、段楠氏は動画生成およびマルチモーダルAIの未来に関する複数の核心的な洞察を共有しました:
動画スケーリング則の独自性:言語モデルとは異なり、現在のDiffusion動画モデル(30Bパラメータに達しても)は、汎化能力におけるスケーリング則のパフォーマンスが顕著ではありませんが、記憶能力は非常に強いです。中規模パラメータ(15Bなど)は、効率と性能のバランスをより良く取れる可能性があります。
「生成」を超えて「理解」へ:現在の主流の動画生成は「テキストから視覚への翻訳」に近く、上限が存在します。真のブレークスルーは、モデルがピクセル生成だけでなく、深い視覚理解能力を備える必要がある点にあります。これは、学習パラダイムの転換、すなわち「マッピング学習」から言語モデルに似た「因果予測学習」への転換が必要です。
ARとDiffusionの融合:将来のモデルアーキテクチャのトレンドは、オートリグレッシブ(Autoregressive)モデルと拡散(Diffusion)モデルの融合になる可能性があり、両者の利点を組み合わせることで、動画やマルチモーダルコンテンツの理解と生成に、より良く貢献することを目指します。
データは依然として基盤とボトルネック:高品質、大規模、多様な自然データ(基盤訓練のために合成データに過度に依存するのではなく)は、強力な基盤モデルを構築するために非常に重要です。データ処理、アノテーションの複雑さとコストは巨大な課題です。
視覚における「Few-Shot学習」の瞬間:次世代視覚基盤モデルの重要な能力は、強力なFew-Shot学習能力であり、NLPにGPT-3がもたらした変革と同様に、新しい視覚タスクに迅速に適応し、解決することを可能にします。
可用性と影響力の両立:技術革新は重要ですが、モデルの使いやすさ、そして多くの開発者やクリエイターが実際に使用できるかどうかが、その影響力を測る上で鍵となり、研究が考慮すべき目標でもあります。
AIと身体性AIの未来:動画理解能力の進歩は、身体性AI、ロボットなど、物理世界との相互作用を必要とするAIアプリケーションに、核心的な知覚能力を提供します。
このインタビューは、動画生成さらにはマルチモーダルAI分野の最前線の思考、技術的なボトルネック、そして未来の青写真について深く分析します。AI研究者、開発者、あるいは未来のテクノロジーに好奇心を持つ観察者の方々も、そこから深い示唆を得られるでしょう。
以下は段楠先生との正式なインタビューです:(読みやすくするため、編集によりテキストが適度に最適化されています)
CSDN:お待ちかねの、現在階躍星辰でTech Fellowを務められている段楠先生にお越しいただきました。段先生、まずは皆さんにご挨拶と自己紹介をお願いします。
段楠:皆さん、こんにちは。段楠と申します。現在、階躍星辰で働いており、主に動画生成関連のプロジェクトを担当しています。それ以前は、マイクロソフトアジア研究所で10年以上にわたり自然言語処理の研究に従事していました。今日は、このようなライブ形式で皆さんと交流できることを大変光栄に思います。私にとっては初めてのことです。
CSDN:ライブに参加されるのは初めてですか?
段楠:はい、本当に初めてです。
CSDN:それは大変光栄です。段先生のライブデビューはCSDNライブルームでということですね。
段楠:こちらこそ光栄です。
CSDN:階躍星辰での役職が「Tech Fellow」とのことですが、スタートアップでは珍しく、一般的に外資系企業でより多く使われます。この役職の考慮について教えていただけますか?
段楠:役職の形式についてはあまり気にしないでください。私は本質的には研究者であり、自分が興味のある分野を引き続き深く研究しているだけで、ただ仕事のプラットフォームが変わっただけです。
CSDN:段先生は、グローバル機械学習技術大会で「動画生成基盤モデルの進捗、課題、未来」について発表されましたが、これも先生が残業して準備された最新の成果ですね。まずは、講演の核心内容、特に皆さんに注目してほしいポイントを簡単にご紹介いただけますか?
段楠:今日の報告は、私が過去1年間、階躍星辰で行ってきたプロジェクトの中間的なまとめです。マイクロソフトアジア研究所にいた頃、私の研究興味は自然言語処理、多言語、コードインテリジェンスから徐々にマルチモーダルに移っていました。階躍星辰では、視覚動画生成に関するこれまでの探求を、会社のニーズと組み合わせて、ゼロから実践しました。
報告では、2月と3月にオープンソース化した2つのモデルを主に紹介しました。30Bパラメータのテキスト・トゥ・ビデオモデルStep-Video-T2Vと、これに基づいて訓練された30Bパラメータの画像・トゥ・ビデオモデルStep-Video-TI2Vです。この報告は比較的オーソドックスで、この方向の現段階のSOTA(State-of-the-Art)モデルのあらゆる側面、モデル構造設計、データ処理フロー、訓練効率最適化などを主に整理しました。
4Bから30Bまでのモデル開発を通じて、現在のAIGCに基づく動画生成モデルのパラダイムには上限が存在する可能性があることに気づきました。報告の最後に、未来に関するいくつかの考えや計画についても簡単に触れました。
CSDN:報告はオーソドックスで、研究上の技術革新はあまり強調されていないと述べられましたね。では、AI分野で過去5年間にマイルストーンと言える技術革新について、先生のお考えを共有していただけますか?
段楠:私の基準から見て、過去5年間のAI分野の大きな革新は以下の通りです:
BERTモデル:自然言語の表現能力を大きく向上させました。その後、NLP分野ではエンコーダー(BERTなど)、エンコーダー-デコーダー(T5など)、純粋なデコーダー(GPTなど)の三つ巴の状況が形成されました。
GPT-3モデル:データとパラメータの規模が一定レベルに達した後、示したFew-Shot学習能力はマイルストーンであり、モデルアーキテクチャの方向性を基本的に確立しました。
InstructGPT/ChatGPT:命令アライメントと強化学習(RLHF)を通じて、モデルが命令に極めて良く従うようになりました。これはまた別の大きなマイルストーンであり、NLPのパラダイムを基本的に確立しました。
DeepSeekシリーズモデル:国内では、DeepSeekが一連の非常に優れたモデル(Math、Code、Vシリーズ、R1など)を発表しました。性能が優れているだけでなく、皆が実際に使えるようになっているのが素晴らしいです。
Soraモデル:マルチモーダル生成分野では、Soraの出現が動画生成を真に焦点にしました。
GPT-4o/Gemini 2.5:これらのモデルは、画像とテキストの統一理解を真に新たな高みに押し上げました。これは非常に重要です。
CSDN:現在の仕事はSoraなどがもたらした効果とはまだ距離があると考えていらっしゃいますが、基礎を固めることがその方向へ向かう前提ですね。インフラ構築(Infra)面で、先生が経験した落とし穴や学んだ経験を共有していただき、他のチームの参考になれば幸いです。
段楠:このプロジェクトは、私たちのチームメンバーの努力だけでなく、会社のデータベースチームとシステムチームからの大きな支援も得ました。モデル、データ、システムの3つの側面からいくつかの経験を共有します:
モデル層面
Full Attention:初期には時空間を分離して積み重ねる構造を試しましたが、後にFull Attentionメカニズムがモデル内部で情報を十分に相互作用させ、運動範囲を大きく向上させることがわかりました。これはすでに共通認識です。
アーキテクチャ選択(DIT + Cross Attention vs MMDIT):私たちはDITにCross Attentionを加えた構造を選択しました。MetaのMovie Genやアリババの万相(Wan)も同様のアーキテクチャです。一部のクローズドソースモデルや大手企業はMMDIT(テキストと視覚情報を早期に融合)を好むかもしれません。理論的にはMMDITは命令制御により優れているかもしれませんが、私たちは前者を選択した理由として、将来の視覚基盤モデルへの進化との互換性も考慮しました。これは最適解ではなく、それぞれに長所と短所があります。
モデル規模(30B):30Bを選択したのは、モデル規模と効果の関係を探るためでした。結論として、Diffusionモデルのスケーリング則は4Bから30Bの範囲では、言語モデルほど汎化能力の向上が顕著ではありませんが、記憶能力は非常に強いです。効率と性能のバランスを追求するには、15B程度が良い選択肢かもしれません。AGIやモデルの上限を探求し、かつリソースが十分にある場合は、さらにチューニングしたり、より大きなモデルを試したりすることができます。
データ層面
データ処理は極めて重要です。動画分割、透かし字幕処理、内容記述、美感度、運動性、鮮明度、カメラの揺れ、カメラ言語のアノテーションなど、膨大な労力を投入し、自ら行う必要があります。
システム層面
強力なシステムチームの支援を持つことが非常に重要です。ここでも階躍星辰のシステムチームに感謝します。彼らは非常に強力で、彼らから多くを学びました。プロジェクトへの支援は極めて重要でした。
CSDN:マルチモーダルモデルの実践において、もし最も厄介で最も重要なプロセスを一つ選ばなければならないとしたら、それがうまくいかないとプロジェクト全体が進まなくなるものは何だと思いますか?
段楠:それは前提条件によります。リソースが十分であれば、データが最も厄介です。リソースが比較的限られている場合は、データとシステムの両方が非常に厄介になります。モデルアルゴリズム自体については、次世代や斬新さを特に強調しない限り、現在の主流のAI分野のほとんどのトピックのモデルアーキテクチャは比較的明確です。これらのアーキテクチャの上には、訓練、チューニング、推論の詳細が非常に多いです。比較的確実性の高いプロジェクトについては、現時点ではシステムとデータの重要性がアルゴリズム自体よりも大きい可能性があります。
CSDN:当初30Bパラメータモデルの効果に疑問符をつけていたと述べられましたが、実践後に中規模パラメータで十分かもしれないと感じられたとのこと。今後もより大きなパラメータのモデルを探索し続けますか?
段楠:はい、ただし前提があります。中規模パラメータモデルでOKと言ったのは、階躍星辰ではアプリケーション層面の課題、すなわち効率と品質のバランスを考慮する必要があるからです。
しかし、別の角度から見ると、現在のDiffusion世代のモデルには上限が存在すると考えています。前進するためには、動画モデルは物理法則に、より強く従う必要があり、単なる生成だけでなくなくてはなりません。NLP分野の成功したモデルは、生成を通じてより強い理解能力を獲得しました。生成は結果を示す方法にすぎません。動画分野も同様であるべきで、同様のパラダイムを通じて視覚モデルに、より強い視覚理解能力を持たせるべきです。この能力は、NLPではIn-Context Learningが出現するために数十B以上のパラメータが必要になるかもしれません。
現在の動画生成モデルは、「テキスト記述 -> 視覚動画」という訓練データを使用しており、これは10年以上前の機械翻訳に似ています。一方、成功したNLPモデルは、次のトークンを予測することで、情報における因果関係とコンテキスト関係を学習しています。
したがって、モデル規模という観点から、なぜさらに大きなモデルを探索する必要があるのか、そしてなぜ私がDIT+Cross Attention構造を選択したのかというと、私は動画が大規模言語モデルのような、視覚領域における理解と生成が統一されたモデルとなり、言語とシームレスに結合する機会があると考えているからです。これは、私たちのチームが最近探求している方向です。
CSDN:先ほど、動画生成が今後1〜2年で直面する課題と、次世代モデルに関する考えについて触れられました。現在、産業界や学術界でこれらの方向について、注目すべき探索の進捗はありますか?あるいは、先生が観察された解決策はどのようなものですか?そして、後で触れられたスケーリング則の問題についても。
段楠:マルチモーダル理解と生成の統一モデルという点では、現在一つの大きな方向はオートリグレッシブ(Autoregressive)とDiffusionの融合です。単に視覚信号を離散トークンに変換することは、以前マイクロソフトで行いましたが、生成品質の損失が大きいことがわかりました。したがって、連続表現を使用して視覚理解と生成を行うのが比較的正しい方向です。
現在、純粋な視覚生成分野ではDiffusionが依然としてSOTAですが、NLPの成功したモデルはオートリグレッシブが多いです。私が個人的に注目している方向は、オートリグレッシブとDiffusionの融合です。
動画をこのフレームワークに組み込むことは、新しい課題をもたらします。画像は1フレーム生成するだけなので、エラーの蓄積は問題ありませんが、動画は何百、何千フレームにも及ぶため、純粋なAR手法では深刻なエラー蓄積が発生します。
ARモデルはトークンごとに予測するため効率が非常に低く、動画の場合は特にそうです。NLPのスパースメカニズム(MoE、MRAなど)は、将来的に視覚生成および理解モデルに応用される可能性があります。
長尺動画の一貫性、運動法則、訓練推論効率を確保することは、それぞれが巨大な課題です。
CSDN:動画生成ツールを使用すると、生成速度が遅く、待ち時間が長いと感じることがよくあります。手作業で動画を作成するよりはずっと速くなりましたが、速度と品質をさらに向上させ、同時に生成時間を長くすることは、皆様が解決すべき核心的な問題ですよね?
段楠:はい、そうです。翻訳技術の発展と同様に、少数の人がマスターしていたものが誰でも使えるようになるプロセスを動画生成も経ています。コンテンツ作成の敷居を下げています。クリエイターが、より低コストで、より早く、より高品質な結果を得られるようにすることが、私たちが努力すべき方向です。言語モデル分野で起こったことは、視覚分野でも同様に起こると信じています。将来、次世代の大規模モデルを通じて、高品質なコンテンツ作成をより良く支援できるようになるでしょう。
核心は推論速度と品質保証です。現在、良い生成事例の一部は、モデルが訓練データで似たような分布のコンテンツを多く見たことがあり、「無意識の」反応を形成しているかのようです。
CSDN:先ほどオープンソース化されたStep-Videoの2つのモデルについて触れられましたが、その効果はどのようでしたか?また、オープンソース化後のコミュニティ、学術界、産業界からのフィードバックはどのようなものでしたか?
段楠:私たちの2つのモデルにはそれぞれの特徴があります:
テキスト・トゥ・ビデオモデルStep-Video-T2(30B):動画の運動性を強化しており、主にデータと訓練戦略を通じて実現しています。スポーツの動きや物理法則の遵守において良いパフォーマンスを示します。今年1月末から2月初めにリリースされた際、国内外の主流モデルと比較して、オープンソースモデルの中ではSOTAに位置づけられるべきであり、一部の次元では非常に特徴的です。
画像・トゥ・ビデオモデルStep-Video-TI2V(30B):訓練初期に大量の二次元アニメーションデータに触れたため、この種のスタイルにおいて品質が非常に良いです。万興などの製品とも比較しました。
CSDN:現在、先生のチームの規模はどれくらいですか?モデル、データ、システムの全てが含まれているのでしょうか?
段楠:インターンを含めて10数人程度です。このプロジェクトを行ったときはもっと少なかったです。データとシステムの部分は他のチームの同僚が支援してくれています。
CSDN:では、コミュニティからの主なフィードバックは何ですか?
段楠:最大のフィードバックは、モデルが大きすぎる(30B)ため、一般的なAIGCクリエイターには扱いにくいということです。
これは私に示唆を与えました:包括的で使いやすいモデルは、上限を追求するモデルよりもアプリケーションコミュニティでのダウンロード数が多いということです。モデルは上限を追求するだけでなく、使いやすさも考慮し、開発者やクリエイターが利用できるようにする必要があります。これは以前はあまり考えていませんでした。なぜなら、当時はモデルの上限と最終的な能力により関心があり、それが次世代モデルが必要かどうかに関わることだったからです。
CSDN:では、今後は上限を上に探索しつつ、下に使いやすさも考慮し、大小両方のモデルを手がけるということですか?
段楠:はい、大規模モデルには対応する小規模モデルが必要です。これは上限とアプリケーションのトレードオフです。そして、大規模モデルの成果は小規模モデルの品質向上に非常に重要であり、これは動画分野でも起こるでしょう。
ただし、私個人の視点からすると、今後は動画理解生成、マルチモーダル理解生成の次世代モデルアーキテクチャにより注目します。まず小規模モデルでアーキテクチャ探索を行い、検証してから拡大することを検討するかもしれません。
CSDN:講演で六つの大きな課題をまとめられましたが、これは先ほど触れられた動画理解の課題とどのような違いがありますか?
段楠:AIGCに特化するなら、効率、制御性、編集性、高品質データの追求が特に重要です。これは現在の基盤の上でより良いモデルを作ることであり、データとモデルモジュール(VAE、Encoder、DIT、後続訓練SFT/RLHF/DPOなど)を絶えず磨き上げる必要があります。
しかし、AI全体という観点から見ると、視覚基盤モデルにはより強い理解能力が必要です。これは学習パラダイムを変える必要があります。私はDiffusionのような学習方法では汎用的な理解能力を学習するのは難しいと考えており、NLPのようにオートリグレッシブな予測学習をする必要があります。
一旦このようなパラダイムに転換すると、効率、アライメントなどの問題は一旦脇に置かれる可能性があります。私は、基盤モデルはデータ駆動でなければならず、偽造されたデータ駆動であってはならず、合成データであってはならないと考えています。したがって、基盤モデルのデータ選択(自然に蓄積された大量のデータ)、学習パラダイム(言語モデルを参考にしつつ、視覚に適応)、視覚理解能力をどのように評価するかなどが巨大な課題となります。視覚分野は、NLPにおけるBERTの後、GPT-3の前の段階にある可能性があり、その後、GPT-3からChatGPTのようなプロセスを経る必要があります。
CSDN:合成データで基盤モデルを訓練できないとしたら、実践で大きな問題に直面するのではないでしょうか?どのように対応しますか?
段楠:確かに大きな問題です。NLPからマルチモーダルへの経路を参考にできます。まずNLPで大規模言語モデルを構築し、次に視覚情報を取り込み、少量の画像テキストアライメントデータを通じて単一モーダルモデルをマルチモーダルにファインチューニングします。
自然な画像テキストアライメントデータは大量に不足していますが、純粋なテキスト、純粋な画像、純粋な動画データは非常に多いです。私は、ある単一モーダル(例えば視覚)の下で、まず言語モデルのような基盤モデルを構築し、その自身の能力を強化した後、クロスモーダルファインチューニングを行うことで、その際に必要なアライメントデータの量は大幅に少なくなるだろうと考えています。これはエンド・トゥ・エンドのネイティブなマルチモーダルとは異なる、補完的な経路です。
CSDN:NLPのBERTからGPTへの発展を例えるなら、動画生成は現在どの段階に位置するとお考えですか?ChatGPTのような瞬間に到達するのはいつ頃と予測されますか?
段楠:まだまだ遠いです。私が感じているのは、今後1〜2年で、視覚分野の基盤モデルが出現するだろうということです。第一に、動画コンテンツ向けの類似モデルが出てくるでしょう。第二に、マルチモーダルと組み合わせることで、既存の理解タスクであれ、現在の注目の身体性AI、エージェント、ロボットなどであれ、重要な視覚理解能力を提供することになるでしょう。このステップがうまくいけば、次の段階の応用と研究にとって重要な基盤となります。
CSDN:では、動画生成基盤モデルの発展は、将来的に身体性AIなどの方向と結合するとお考えですか?
段楠:AGIの観点から見ると、それはある次元で人間をはるかに超えるが、おおよそ人間の機能を持つ「インテリジェントエージェント」を創造することです。人間が情報を受け取るのは時系列で連続しており、動画に似ています。したがって、視覚理解の発展は、主に未来のインテリジェントエージェント(身体性AI、ロボットなど)に、より強力な時系列視覚理解能力を提供するためです。
AIGCの観点から見ると、将来、誰もが自分を映画に登場させたり、一緒に創造したい人と共同制作したりできるかもしれません。
現在、AIGCにはいくつかのトレンドがあります:
動画生成の長さが長くなり、物語性が強化される;
編集能力が向上し続け、制御性が強化される;
参照に基づく画像/動画生成が急速に発展しており、将来的には誰もが主役になれます。
CSDN:共有された六つの大きな課題は、何か順序(例えば厄介な順)で並べられていますか?
段楠:それは現実的な視点から中長期的な視点へと並べられています。現実的なのはデータ層面です。さらに進むと応用層面で、効率、命令遵守、複数回編集インタラクションを考慮します。さらに進むと、私の考えでは、それはAIGCだけでなく、AI自体の発展であり、例えば世界モデルなどです。
CSDN:では、世界モデルは皆が実現したいAIGCの最終的な(あるいは重要な)ノードに関係しているのですね。これらの六つの大きな課題に対して、先生のチームには技術路線上で対応する最適化や改善計画はありますか?
段楠:計画はあります。一方では、基礎モジュール(データアノテーション、動画表現、モデル構造)でより確かな経験を積み重ね、製品のように継続的に改善を繰り返し最適化します。もう一方では、少量のリソースを未来探索に投入します。単なる追随者であってはならず、革新的なことに挑戦する必要があります。たとえその可能性が低くてもです。
CSDN:最後にFutureをまとめる際に、モデルパラダイム、学習パラダイム、モデル能力の変化について触れられましたが、これは先生が実現したい真の革新に関係していますか?基本的な考えを共有していただけますか?
段楠:
モデル構造パラダイムの変化:純粋なDiffusionモデルからAutoregressiveとDiffusionの融合の方向へ発展。
学習パラダイムの変化:テキストから動画へのマッピング学習から、言語モデルのように因果関係を予測する学習へ転換。
能力の変化:AIGCの観点では生成能力ですが、その汎化性は言語モデルには及びません。基盤モデルの最強の能力はFew-Shot学習であるべきです。すなわち、少数の新しいタスクサンプルからその種のタスクを迅速に解決する能力です。視覚に類推すると、将来、モデルにいくつかの特殊効果(物体が爆発するなど)の例を見せれば、追加訓練なしに同様の効果を直接出力できるようになるかもしれません。
CSDN:先生が想定されているこれらの変化は、非常に長期的なものに聞こえますね。
段楠:多くのことは急速に発展しています。2022年11月以前はNLPは一生できると思っていましたが、その後状況が急速に変化しました。ですから、長期的なものに聞こえるこれらのことも、簡略版や中間段階がすぐに現れるかもしれません。
CSDN:この「すぐに」とは具体的にどれくらいの期間ですか?1〜2年以内にどのような重要なことが起こると予測されますか?
段楠:私の個人的な感覚では1〜2年です。重要なこととしては、例えば視覚分野でGPT-3に似た瞬間が現れるか?マルチモーダルモデルがテキスト、画像、動画を真に統一できるか?これらが達成されれば、非常に素晴らしいことであり、皆は本当に次に何をすべきかを考える必要があります。
CSDN:1年「消失」した後、再び姿を現されましたが、この1年間で学んだ、最も深く感じた三つの経験を共有していただけますか?認知上の変化は何かあり、変わらないものは何ですか?
段楠:
スキルスタックの拡張:過去には、私はアルゴリズムやいわゆる革新そのものに過度に焦点を当てていたかもしれません。大規模プロジェクトにおけるデータとシステムの重要性を無視していました。この1年間で、この分野で経験を積みました。
可用性:プロジェクトは学術的な上限を追求するだけでなく、特に異なる環境下での可用性も考慮する必要があります。影響力のある研究は、この時代において、誰かに利用されるものでなければなりません。
認知の変化:技術革新と広範な応用との関係をより深く理解しました。
変わらないもの:技術そのものへの追求は決して変わっていません。大きな方向性としては、いくつかのことは最終的に起こると信じており、この大きな方向性に向かって努力する目標は変わっていません。
CSDN:大規模モデルという変化の時代において、技術ブレークスルーは予測困難です。このような不確実性の中で、確実に言えることは何だと思いますか?
段楠:研究分野で長年働いている者として、いくつかのマクロなトレンドは確実だと信じています。プラットフォームや段階が異なれば調整はありますが、大きな方向に向かって前進するという目標は変わりません。
CSDN:マルチモーダル分野で、最終的に必ず実現するとお考えのことは何ですか?
段楠:言語と視覚の理解と生成の統一です。将来、人々はより便利にデバイスを使用してテキスト以外のコンテンツ(画像、環境)を知覚し、またソーシャル、仕事、趣味を満たすコンテンツをより良く作成できるようになるでしょう。誰もが自媒体になる機会が増えます。以前、ある年次総会に参加した際、コンテンツクリエイターが非常に複雑なパイプラインを構築できるのを見て、創造性のある人々が技術を統合して利用すると信じました。それは非常に印象的でした。
CSDN:年初の展望では、テキスト分野は比較的成熟し、マルチモーダルの結果はまだ明確ではないという意見がありましたが、この結果は2025年に現れると思いますか、それとも2026年ですか?より具体的に教えていただけますか?
段楠:私の感覚では今後1年です。少なくともGPT-4oのような画像とテキストの理解生成は非常にうまくいくでしょう。例えば、小さな店舗が図文併茂の広告を作成するなど、多くの実際的な問題を解決できるようになるでしょう。
さらに進むと:
応用層面:AI新型応用は現在まだ不確実ですが、将来発展する可能性があります。
モデル層面:マルチモーダルモデルは物理世界に向かって発展し、視覚をより良く知覚できるようになります。例えば、動作理解などです。この分野の成果はますます多く、確実になっていくでしょう。
CSDN:ライブ配信の視聴者から、段先生がどのようなAIアシスタントを使っているか質問があります。AIの使用習慣はどのようなものですか?
段楠:いくつか使っています。階躍自身の「階躍AI」アシスタントやDeepSeekなどです。マイクロソフトにいた経験から、ChatGPTを使う習慣も残っています。
CSDN:この1年間の仕事の状態はいかがでしたか?残業の程度は?
段楠:受動的な状態を残業と呼び、能動的な状態は残業とは呼びません。私たちのチームの人々は皆、自己主導型なので、特に指示する必要はありません。
CSDN:皆さんが自発的に取り組んでいて、多くの落とし穴に遭遇していると感じつつも、自分がやりたいことだと感じているのですね。
段楠:はい、その通りです。
CSDN:段先生、貴重なお話をありがとうございました。今後もぜひ皆さんとの交流の機会を増やしていただければ幸いです。
段楠:はい、皆さんありがとうございました。
2025グローバル機械学習技術大会上海駅は無事閉幕しました。本大会はAIの最先端の発展トレンドと実践応用を中心に、大規模言語モデル技術の進化、AIエージェント、身体性AI、DeepSeek技術解析と業界実践など12の主要テーマに焦点を当てました。世界のトップ技術企業および学術機関から60名以上の重要ゲストが集結し、AI分野の技術動向と応用最前線を包括的に紹介しました。
以下のQRコードをスキャンすると、「2025グローバル機械学習技術大会上海駅」大会PPTを無料で受け取れます。