Seed1.5-VL技術レポートの解説

ByteDanceが先日、強力なクローズドソースのマルチモーダル大規模言語モデルSeed1.5-VLを発表しました。その技術レポートは非常に率直で、一読の価値があります。本記事では、その技術レポートの執筆順序に従って、一歩ずつ精読していきます。

概要

画像https://arxiv.org/abs/2505.07062

Seed1.5-VLは、532Mパラメータの視覚エンコーダーと20Bのアクティブパラメータを持つMoE LLMで構成されており、60のマルチモーダル視覚言語モデルベンチマークのうち38でSOTAを達成しました。GUI、動画理解、視覚推論において極めて強力な性能を発揮しています。現在、Seed1.5-VLは商用モデルであり、有料APIが提供されていますが、オープンソースではありません。

モデル構造

画像

まず、Seed1.5-VLのモデル構造は依然として典型的なVLM構成です。ネイティブ動的解像度のSeed-ViTを画像エンコーダーとして使用し、Qwen2-VLと同様に2D RoPE位置エンコーディングを使用し、次にMLP Adapterを介して、最終的に自己回帰型LLMに接続されます。(視覚エンコーダーの入力解像度については、本アカウントの高解像度MLLMシリーズ「高解像度VLMへの道 (11): VILA-HD」をご参照ください)

画像

固定解像度は、特にOCRなど画像の詳細を必要とするタスクにおいて、実際のアプリケーションで多くの問題に直面し、性能に大きな影響を与えます。画像入力解像度の課題に対処するため、本論文ではネイティブ解像度の視覚エンコーダーSeed-ViTを開発しました。

画像

Seed-ViTの事前学習プロセスは3つの段階に分かれています。(1)2D RoPEを用いたマスク画像モデリング(Masked Image Modeling、MIM)、(2)ネイティブ解像度対比学習、および(3)オムニモーダル事前学習(Omni-modal Pre-training)。

第一段階では、トレーニング目標はMIMを通じて視覚的幾何学と構造意識の視覚認識能力を強化することです。EVA02-CLIP-Eを教師モデルとして使用し、学生モデルは表1で定義されたアーキテクチャに従ってランダムに初期化されます。トレーニング中、画像パッチの75%と対応するRoPE位置エンコーディングがランダムにマスクされ、教師が生成したCLIP特徴が再構築目標として使用されます。このプロセスは、学生と教師の出力間のコサイン類似度損失を用いて最適化されます。著者らは、学生モデルと教師モデル間の視覚位置埋め込みの違いが性能を損なわないことを発見しました。なぜなら、教師は学習可能な位置埋め込みを使用し、学生は2D RoPEを使用するからです。むしろ、2D RoPEは学生に強力なネイティブ動的解像度認識能力を与えます。このMIMプロセスの規模を拡大するにつれて、VLMのグラフ/文書理解およびOCRにおける能力が大幅に向上しました。

対比学習段階では、視覚エンコーダーはMIMで訓練された学生モデルで初期化され、テキストエンコーダーはEVA-02-CLIP-Eのテキストエンコーダーで初期化されます。与えられた各画像-テキストペアに対して、視覚エンコーダーが抽出したブロック特徴をアテンションプーリングにより1280次元の画像埋め込みにプーリングします。そして、SigLIP LossとSuperClass Lossを共同で最適化することにより、画像とテキスト埋め込み間のアライメントを実現します。

最後のオムニモーダル事前学習段階では、MiCoフレームワークを採用し、動画データから動画フレーム、音声、視覚キャプション、音声キャプションを含むアラインされたタプルを構築します。ViTは動画フレームと音声をエンコードし、独立したテキストエンコーダーがキャプションを処理します。これらの埋め込みをアラインすることで、ViTは統一されたオムニモーダル表現を学習します。この段階は、ViTの事前学習プロセス全体におけるトレーニングデータトークン量の4.8%しか消費しませんでしたが、画像および動画理解タスクにおけるViTの性能を大幅に向上させました。

動画入力の処理において、Seed1.5-VLは動的サンプリング解像度を導入し、異なる長さと情報密度の動画を効率的に処理します。最大予算は動画セグメントあたり81920トークンで、より少ないフレームをより高い解像度で処理したり、より長い動画でより多くのフレームを収容するために低い解像度を使用したりする柔軟性があります。

事前学習データエンジニアリング

インフラストラクチャを除けば、大規模モデルアルゴリズムの核心は「データエンジニアリング」にあることは周知の事実です。これはしばしば「データ洗浄」と軽蔑され、数式の導出や回路図の作成に熟練した学者たちからは見下されがちですが、データエンジニアリングがモデルの能力の上限と下限を直接決定することは否定できません。まず、Seed1.5-VLが事前学習段階でどのようにデータエンジニアリングを行ったかを見てみましょう。

Seed1.5-VLの事前学習コーパスでは3兆(3T)トークンが使用されました。最先端の大規模言語モデルの事前学習が通常10〜30Tトークンであるのに対し、下流のマルチモーダル事前学習では3Tトークンは驚異的な量です。

汎用タスクの画像-テキストペアは、視覚知識を注入するために使用され、知識のロングテール分布をある程度バランスさせることで、希少な視覚概念に対して十分なトレーニングイテレーションを確保します。この再バランス戦略は事前学習において非常に重要です。

この観察を検証するために、研究者たちはBiotroveデータセットを用いてサンドボックス実験を実施しました。

Random-46M:トレーニングセットからランダムに4600万サンプルを選択。

Max1k-46M:4600万サンプルを選択し、各生物種につき最大1000サンプルで、希少種を含むようにします。

Max100-15M:1500万サンプルを選択し、各生物種につき最大100サンプルで、希少種の相対的な露出を増やします。

画像

実験結果は、Random-46M構成が希少種の認識において不十分な性能を示したことを示しています。対照的に、一般的な種の最大サンプル数を制限すること(Max1k-46M)は、希少種の性能を著しく向上させました。さらに一般的な種の代表性を制限すること(Max100-15M)は、希少種の記憶を強化しましたが、一般的な種の認識に悪影響を与えました。したがって、視覚知識を効果的に獲得するためには、一般的な視覚概念の多様な例を維持しつつ、希少な視覚概念に対して十分なトレーニングイテレーションを確保する必要があります。

OCRデータ。OCRタスクはマルチモーダル大規模モデルにとって激戦区となっており、MLLMの応用範囲を大きく広げることができます。Seed1.5-VLの訓練では、大量のOCRアノテーションデータと合成データが使用されました。

画像

著者らは、文書、シーンテキスト、テーブル、チャート、フローチャートをカバーする10億を超えるサンプルを含むOCR訓練データセットを構築しました。詳細は上の図の通りです。

Grounding(位置特定)およびカウンティングタスクデータ。主に3種類のデータが利用されました:バウンディングボックスアノテーション、ポイントアノテーション、およびカウンティングデータ。

3D空間疎理解データ。モデルが単一画像から3D空間を理解できるようにするため、以下の3つのタスクに対応するデータが構築されました:相対深度順序付け、絶対深度推定、3D位置特定。

動画データ。汎用動画理解データ、時間位置特定および検索データ、動画ストリームデータ(質疑応答の相互参照、リアルタイムコメントなど)が含まれます。

STEMデータ(科学、技術、工学、数学)。数学、物理学、化学、生物学など300カテゴリをカバーする320万枚の高品質な教育的位置特定サンプルが収集されました。異なる形式の構造化テーブルが1000万枚合成され、化学構造図が450万枚生成され、関数グラフや位置グラフを含む合成座標系図が150万枚作成されました。特定のサブセットK12記述データ:教育画像の人工アノテーション記述10万枚、視覚質問応答(VQA)ペア100万組、機械生成記述100万枚、幾何学的記述数十万枚。1億以上のK12レベルの練習問題が処理されました。数千万の中国成人教育問題と数百万の画像関連問題が補足されました。ハイブリッドな収集戦略が採用されました:人工アノテーション、自動合成、厳格な品質管理。これにより、マルチモーダル(テキスト、視覚、グラフ)の網羅性を確保し、数学、物理学、化学などの中核的なSTEM分野をカバーしました。

GUIデータ。MLLMの最も一般的な応用シナリオの一つであり、GUI操作です。強力なGUIの認識、基礎付け、推論をサポートするために、著者らはウェブ、アプリケーション、デスクトップ環境にまたがる大規模なデータセットを作成しました。各スクリーンショットには、自動解析と人間による探索によって収集された構造化メタデータ要素(タイプ、バウンディングボックス、テキスト、深度)がペアリングされています。

事前学習レシピ

モデルは主に3つのモジュールで構成されています:視覚エンコーダー、MLPアダプター、そして言語モデルです。視覚言語モデル(VLM)の事前学習フェーズの前に、視覚エンコーダーは独立して訓練されます。言語モデルは、内部で事前学習された約200億のアクティブパラメータを持つモデルから初期化されます。この言語モデルはデコーダーのみのMoEアーキテクチャを採用しており、数兆に及ぶ高品質な純粋テキストトークンを含む大規模コーパスで訓練されています。我々のVLM事前学習方法は3つの異なる段階に分かれています。

ステージ0:視覚エンコーダーとMLPアダプターのみを訓練し、視覚エンコーダーと言語モデルをアラインメントします。このステージをスキップすると、損失がわずかに高くなり、性能がわずかに低下します。

ステージ1:すべてのモデルパラメータが訓練可能です。このステージは知識の蓄積に焦点を当て、3兆トークンを含むマルチモーダルコーパスで訓練することにより、モデルの視覚グラウンディングとOCR能力を習得します。このコーパスは主にキャプション、インターリーブされた画像-テキスト、視覚グラウンディング、OCRデータで構成されています。経験的に、少量の純粋テキストトークン(例:5%)を追加することで、モデルの言語能力を維持できることが発見されました。さらに、少量の指示追従データを追加することで、より信頼性の高い評価結果が得られ、事前学習の開発と事後学習が分離されます。

ステージ2:異なるタスク間でよりバランスの取れたデータミックスを作成し、新しいドメイン(動画理解、プログラミング、3D空間理解など)からのデータを追加します。さらに、シーケンス長を32,768から131,072に増加させ、動画における長い依存関係や複雑な推論問題のモデリングによりよく対応できるようにします。ステージ1と同様に、すべてのモデルパラメータが訓練可能です。

事後学習

事後学習段階では、教師ありファインチューニング(Supervised Fine-tuning, SFT)と強化学習(Reinforcement Learning, RL)を組み合わせることで、Seed1.5-VLに強力な指示追従能力と推論能力を与えました。このプロセスは、コールドスタートデータで訓練されたSFTモデルから始まります。重要な構成要素はデータパイプラインであり、困難で多様なプロンプトを継続的に収集し、それらを拒否サンプリングによってSFTデータを改善し、RLに入力します。事後学習は反復的に進行します。SFTモデルは、多様なプロンプトに対するRLモデルの学習結果を洗練することで徐々に強化されます。この反復的な改善は、プロンプトプールが枯渇し、性能指標が収束するまで継続されます。最終的に、このプロセスによりSeed1.5-VLが生成され、迅速で簡潔な返答だけでなく、長鎖推論(Long Chain-of-Thought, LongCoT)を伴う深い回答も生成できるようになります。

画像

教師ありファインチューニング(SFT)段階は、Seed1.5-VLに強化学習の前に基礎的な指示追従能力と推論能力を付与する上で極めて重要です。SFTデータセットは、異なる能力を対象とした2つの主要部分で構成されています。第一の部分は汎用指示データであり、Seed1.5-VLが多様で複雑な指示を処理できるよう訓練し、簡潔で正確な応答を生成することに重点を置いています。第二の部分は長鎖推論(LongCoT)データであり、詳細で段階的な推論プロセスを生成することに焦点を当てています。これらのデータは、プロンプトエンジニアリングと拒否サンプリングによって生成されます。

モデルの性能をさらに向上させるため、研究コミュニティから提供された3万件の高品質データサンプルを追加しました。これらのサンプルは、私たちが慎重に収集した約150万件のエントリを含むオープンソースライブラリから選別されたものです。当初、私たちは独自の画像-テキスト埋め込みモデルを使用して、画像-テキストペアを特定のタスクカテゴリにクラスタリングしました。このクラスタリングにより、データセットはさまざまなタスクで高い多様性を維持できました。その後、人間が好むように調整された訓練済みのSFTモデルを利用して、このサンプリングされたサブセット上で複数回のシミュレーションを実行しました。生成された応答は、LLMを判定者としてフィルタリングされ、元の正解を参考に、モデルが生成した応答の正確性が評価されました。このに基づいて、さらに報酬モデルを用いて、残された結果の中から人間の好みに最も合致する応答を選別し、最終的な拒否サンプリングファインチューニングデータを取得しました。最終的に、SFTデータセットにおけるオープンソースデータの量を150万件から約3万件の高品質データに圧縮しました。残りのオープンソースデータは、事前学習段階で事前に使用されました。

RLHF段階では、報酬モデルを訓練するために、人間がアノテーションした選好データを収集しました。候補モデルの応答を比較するために5段階評価システムを使用し、選好強度を用いて合成データを洗練しました。

私たちのオンライン強化学習の実装は、PPOアルゴリズムの変種を採用しており、報酬信号は報酬モデルが生成する応答トークンの確率から得られます。PPO訓練中、報酬モデルは正解、またはSFTモデルの最適なN個の応答を参照します。

評価

Seed-VITは小型ながら高性能な視覚エンコーダーです。

画像

Seed1.5-VLは最終的に多くのVQAベンチマークでSOTAを達成しました。

画像

最後に、お知らせです。友人の「バオバオアルゴリズムノート」の新刊が発売されました!今日の浮ついた風潮の中、この本は数少ない良作の一つであり、大規模モデル業界で働くことを考えている面接者や愛好家の皆さんにきっと役立つことでしょう!(本アカウントのショップでも購入可能です!)

👇「思源データサイエンス」をフォローする

👇「いいね」と「見てるよ」をお願いします

メインタグ:人工知能

サブタグ:マルチモーダルモデル視覚言語モデル機械学習大規模言語モデル


前の記事:API設計の「Goの境地」:GoチームによるMCP SDK設計プロセスにおけるトレードオフと考察

次の記事:速報!米国新法案、10年間AI規制を禁止へ

短いURLをシェア