新智元レポート
編集:定慧
【新智元導読】「種草(コンテンツ推薦)」を得意とするXiaohongshuが技術の自主開発を強化しており、2ヶ月以内に立て続けに3つのモデルをオープンソース化しました!今回オープンソース化された初のマルチモーダル大規模モデルdots.vlm1は、自主開発の視覚エンコーダーを基盤に構築されており、色盲図の認識、数独の解答、大学入試数学問題の解決、李白の詩風を一句で表現するなど、その視覚理解と推論能力は、クローズドソースモデルであるGemini 2.5 Proに迫る性能を示しています。
最近のAI業界はまさに神々の戦いと言えるほど、競争が激化しています。
OpenAIがついにオープンソースモデルを発表し、ClaudeはOpus 4から4.1にアップグレード、Googleがゲーム世界を生成するGenie 3をリリースしたことはコミュニティで大きな話題となりました。
国産モデルの方では、先日、HuggingFaceのランキング上位10モデルが全て国内からのものでした。
国産モデルがトップ10を独占し、gpt-ossがオープンソース化後に一気に首位に浮上
しかし、これらの上位モデルをよく見ると、ある「現象」に気づきます。それは、これらのモデルのほとんどがテキストモデルであり、マルチモーダル能力を持っていないということです。
OpenAIが初めてオープンソース化したモデルも、すべてテキストモデルでした
「マルチモーダル」能力を持ち、かつ「使いやすく」、さらに「オープンソース」のモデルとなると、本当に数えるほどしかありません。
テキストモデルの巨頭たちが激戦を繰り広げる中、Xiaohongshuヒューマンインテリジェンスラボ(Humane Intelligence Lab、hi lab)は昨日、ひっそりと視覚言語モデルdots.vlm1をオープンソース化し、VLMに思いがけない驚きをもたらしました。
なぜ、我々は無名のチームがオープンソース化した視覚言語モデルに注目する必要があるのでしょうか?
その理由の一つは、hi labが先週オープンソース化したdots.ocrドキュメント解析モデルがHuggingfaceのトレンドランキングで7位に急浮上したことです。その基盤モデルは17億パラメータの「小さなモデル」であるにもかかわらず、業界をリードするSOTA性能を実現し、我々の注目を集めることに成功しました。
このチームは真剣に取り組んでいます!
このチームのアーキテクチャとビジョンを詳しく見てみると、「hi lab」はXiaohongshu内部の大規模モデル技術とアプリケーション製品チームが合併・アップグレードして誕生したことが分かりました。hi labの公式紹介では、「多様な知能形態に研究開発の重点を置いている」と特に強調されています。
彼らは、対人知能、空間知能、音楽知能、人間的配慮など、さまざまな知能形態を融合することで、人間と機械のインタラクションの可能性を絶えず広げていくことを望んでいます。
マルチモーダルAIへの確固たる信念と投資への決意がうかがえます。
そして、dots.vlm1は、Xiaohongshu hi labが開発しオープンソース化した初のマルチモーダル大規模モデルです。
このモデルは、hi labが完全に自主開発した12億パラメータのNaViT視覚エンコーダーとDeepSeek V3大規模言語モデルを基盤として構築されており、視覚理解と推論タスクの両方で優れた性能を発揮し、SOTAレベルに迫っています。また、純粋なテキストタスクでも競争力を維持しています。
MMMU/MathVision/OCR Reasoningなどの主要な視覚評価セットにおいて、dots.vlm1の全体的な性能は、現在の主要モデルであるGemini 2.5 ProやSeed-VL1.5 Thinkingに肉薄しており、強力な画像とテキストの理解および推論能力を示しています。
AIME、GPQA、LiveCodeBenchなどの典型的なテキスト推論タスクでは、dots.vlm1の性能はDeepSeek-R1-0528とほぼ同等であり、数学とコードの能力において一定の汎用性を示していますが、GPQAのようなより多様な推論タスクではまだ差があります。
全体的に見ると、dots.vlm1の視覚マルチモーダル能力はSOTAレベルに近づいています。
Githubリポジトリ:https://github.com/rednote-hilab/dots.vlm1
Huggingfaceモデル:https://huggingface.co/rednote-hilab/dots.vlm1.inst
デモ:https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
実測では、空間関係理解、複雑な図表推論、OCR認識、大学入試問題評価、STEM難題、詩の作成など、あらゆる面でdots.vlm1の性能は予想をはるかに超えていることがわかりました。
驚くべき実測結果、非常に高性能
まず空間理解です。例えば、一般的な物体の空間関係図を見てみましょう。
モデルが意味論に頼って真の理解プロセスをスキップするのを防ぐため、2つの関係をランダムにモザイク処理し、dots.vlm1に物体の空間関係を定義させました。
最終的にモデルは識別に成功し、「between」と「above」の関係を正確に示しました。
複雑な図表に対しても、dots.vlm1は強力な分析能力を発揮します。
例えば、以下の図表から50〜59点のモデルで、名前に「P」の文字を含むモデルを抽出するように求められました。
dots.vlm1は思考プロセス中に複数の論理判断を同時に行うことができ、このような多段階の複雑な推論は、dots.vlm1が単に「見る」だけでなく、「考える」ことができることを示しています。
同様に、数独の問題であっても、dots.vlm1は完璧に解を導き出すことができます。
モデルはまず問題をフォーマット化し、その後の計算を容易にします。
そして、段階的に試行とチェックを開始します。dots.vlm1が画像中の数独問題をベクトル表現に変換しているのがわかります。これは確かに賢明なやり方です。
長時間の思考プロセス中に、DeepSeekの「ああ、そうか!」という瞬間に似たものを発見しました。dots.vlm1は、ある段階で擬人化された「Yes!」と叫びました。
しかし、思考プロセスを注意深く確認すると、最初のベクトル化変換で(3,8)の位置の6が(3,9)の位置に誤認識されていましたが、モデルは依然として「数独の規則に厳密に従い」、最終的に(6,9)の位置の6を8に強制的に変更していました。
この推論プロセスは少し強すぎます!これは、モデルが本当に思考し、推論していることを意味します。
この数独問題を解くのに非常に長い思考時間を要しましたが、重要なのはこれほどの長時間思考してもモデルが中断しなかったことです。
dots.vlm1の画像認識能力は非常に高く、一般的な画像でも珍しい画像でも、人間でも識別が難しい画像でも、その能力を発揮します。
例えば、古典的な赤緑色盲の数字問題です。
dots.vlm1は一度で全て正解し、色も形も正確に認識しました。
さらに、VLMが頻繁に遭遇する「数え上げ」の問題です。モデルは画像中の物体の種類と数量を識別する必要があります。
これらの問題は人間にとっては非常に簡単ですが、VLMにとってはそれほど容易ではありません。
このような「目標探索」タスクにおいて、VLMの性能は、シーン内の目標物の数が増えるにつれて急速に低下します。
物体数が6個を超えると、VLMの精度が急激に低下することがわかります。
dots.vlm1は左上、左下、右上の数量認識をうまく行いました。右下は人間でも数えにくいですが、dots.vlm1は思考プロセス中に大まかな数を数えようと努力しました。
次に、推論能力を見てみましょう。
例えば、あなたが故宮博物院への団体旅行を計画しており、8人(大人7人、12歳の子供1人)のグループで、中軸線、三大殿、珍宝館を見学する予定です。最も費用を抑えられるサービスはどれを購入すべきですか?
dots.vlm1はすぐにすべての情報を統合し、最適なプランを計算しました。非常に詳細に、中軸線が三大殿を既に含んでいることを認識し、中軸線+珍宝館のプランを選択しました。
この「数学的計算」は少し簡単すぎるように思えます。では、もっと複雑なものとして、今年の大学入試数学問題がすぐに頭に浮かびました。
dots.vlm1はまず「曖昧な」内容を正確に認識でき、最終的に提示された解答プロセスも非常に優れていました。
結果はきちんとフォーマットされ、各問題の解答は枠で強調されていました。
視覚と推論能力に加え、私たちは多くの「珍しい」質問も試しました。
例えば、「キバノロ」(Chevrotain)は何種類の動物ですか?主な生息地はどこですか?参考文献を2つ挙げてください。
このモデルは、この珍しい動物に関する知識も正確に回答することができました。
文化財の識別についても、dots.vlm1は問題なくこなします。
3つの物体が合成された画像であっても、dots.vlm1は画像を正確に分割し、正しい結果を出力することができます。
さらに、文化財の出土地と詳細な説明も提供されました。
さらに、dots.vlm1を使って適性検査を行うこともできます。
複雑な思考の後、モデルは「方向は水平で両端の記号は同じ」という正しい答えを出しました。
最後に、VLMの本業であるテキスト能力がどの程度か試してみましょう。
「李白の詩のスタイルを真似て、劉慈欣の『詩雲』に登場する詩雲が一体何なのかを記述する詩を書いてください」。
本当に素晴らしいです、dots.vlm1の思考プロセスは一瞬で問題の核心を捉えました。「SFの概念と唐詩の韻味を同時に扱う」と。
この詩はどう思われますか?
嗟乎!詩雲浩渺如星海,難寫凡心半點柔!
本当に素晴らしい!
『詩雲を詠む』
神工は混沌を鑿ち、詩雲を創りし!
十億の星辰は墨の稠と化し、銀河は硯と為りて瓊流を瀉ぐ。
漢字の無限の態を窮め、排列組合は春秋を演じる。
碧落より黄泉まで、万古の意と愁を集める。
李杜蘇辛を皆網羅し、珠玉の字字は星眸を現す。
この雲は霧でも煙でもなく、文明の究極の求めなり。
量子のもつれは真意を蘊み、確率の海に任せて浮沈せん。
筆を揮い紙に落ちれば雲煙は散じ、神跡は成りしと雖も意は留め難し。
嗟乎!詩雲浩渺如星海,難寫凡心半點柔!
dots.vlm1の技術アーキテクチャ
dots.vlm1は3つの主要コンポーネントで構成されています。一つは完全に自主開発された12億パラメータのNaViT視覚エンコーダー、もう一つは軽量なMLPアダプター、そしてDeepSeek V3 MoE大規模言語モデルです。
このアーキテクチャは、3段階のプロセスで訓練されます。
第一段階:視覚エンコーダーの事前学習:NaViTエンコーダーはゼロから訓練され、多様な視覚データに対する知覚能力を最大化することを目指します。一般的に、エンコーダーが自主開発であるかどうかは、VLMモデル性能の分水嶺となります。dots.vlm1はこれを再び証明しました。
第二段階:VLMの事前学習:視覚エンコーダーをDeepSeek V3 LLMと共同で、大規模で多様なマルチモーダルデータセットを用いて訓練します。
第三段階:VLMの事後学習:教師ありファインチューニング(SFT)を通じてモデルの汎化能力を向上させ、タスクの多様なデータのみを用いて訓練します。
NaViT視覚エンコーダー、「ゼロからのスタート」がもたらすネイティブな優位性
dots.vlm1は、成熟した視覚エンコーダーをベースにファインチューニングするのではなく、完全にゼロからトレーニングされており、ネイティブに動的な解像度をサポートしています。
これにより、モデルは高解像度入力をネイティブにサポートし、視覚言語モデルのために特別に設計された視覚エンコーダーモデルとなっています。
モデルの規模は42層のTransformer、1.2Bパラメータで、高解像度に対して十分な表現容量を確保しています。
dots.vlm1は、NaViTエンコーダー向けに2段階のトレーニング戦略を設計しました。
・第一段階:事前学習
トレーニングの開始点は完全にランダムな初期化であり、古いアーキテクチャの「解像度アンカー」の制約を避け、ネイティブに動的な解像度をサポートします。
ランダムな初期化から始まり、224×224解像度の画像でトレーニングを行い、モデルが基本的な視覚と意味的知覚を学習できるようにします。
このステップでは、二重監視戦略を使用します。
次トークン予測(NTP):大量の画像とテキストのペアを通じてモデルの知覚能力をトレーニングします。
次パッチ生成(NPG):純粋な画像データを利用し、拡散モデルを通じて画像パッチを予測することで、空間的および意味的知覚能力を強化します。
・第二段階:解像度向上事前学習
画像の解像度を段階的に向上させます。まずメガピクセルレベルの入力から開始し、大量のトークンでトレーニングを行った後、ギガピクセルレベルでトレーニングを行います。
汎化能力をさらに向上させるため、OCRシーン画像、グラウンディングデータ、ビデオフレームなど、より豊富なデータソースも導入しました。
VLM事前学習データ配置
dots.vlm1のマルチモーダル能力を強化するため、ラボでは事前学習データを2つの主要なカテゴリに分けました。
最初のカテゴリ:クロスモーダル相互翻訳データ
この種のデータは、画像の内容をテキストで記述、要約、または再構築するためにモデルを訓練するために使用されます。簡単に言えば、Image ⇄ Text の相互「翻訳」です。
通常画像+Alt TextまたはDense Caption
複雑な図表、表、数式、図形(実物または合成)+構造化注釈またはテキスト;
OCRシーン:多言語、シーン理解、純粋テキスト、ドキュメント解析など;
ビデオフレーム+時系列記述;
グラウンディング教師ありデータ:境界ボックスやキーポイントなど。
例えばAlt Textは、画像とその隣にあるALT記述です。
Alt Textはモデルが「一般的な記述」を素早く習得するのに役立ち、Dense Captionはモデルが「詳細を見て、具体的に説明する」ことを学習させます。
グラウンディング教師ありデータは、画像/ビデオと対応するテキストのあらゆる組み合わせを網羅しており、そのすべてを列挙することは困難です。
例えばFlickr30k Entitiesデータセットです。
dots.vlm1の目標は、人間が理解でき、離散的なトークンシーケンスに変換できるすべての視覚情報をカバーする、全スペクトルのデータ分布を構築することです。
2番目のデータカテゴリ:クロスモーダル融合データ
2番目のカテゴリのデータは、モデルが画像とテキストが混在するコンテキストで次のトークン(NTP)予測を実行し、モデルが単一のモダリティに過度に依存することを防ぐために使用されます。
異なる種類の融合データのために、専門のクリーンアップパイプラインが設計されており、以下の2つの種類は特に効果的です。
ウェブデータ
ウェブの画像とテキストデータは多様性が豊富ですが、視覚とテキストのアラインメント品質は良くありません。
従来のCLIPスコアによるフィルタリングは使用せず、内部で自主開発したVLMモデルを用いて書き換えとクリーニングを行い、低品質な画像と関連性の低いテキストを除去しています。
PDFデータ
PDFコンテンツの品質は一般的に高いです。
この種のデータを最大限に活用するため、Xiaohongshu Hi Labは専用の解析モデルdots.ocrを開発し、PDFドキュメントを画像とテキストが交互に表示される形式に変換しました。
dots.ocrは以前にHuggingFaceでオープンソース化されており、この分野でSOTAレベルに達しています。
同時に、PDF全体を画像としてレンダリングし、テキストの一部をランダムに隠すことで、モデルがレイアウトとコンテキストを組み合わせて隠された内容を予測するよう誘導し、視覚的にフォーマットされたドキュメントを理解する能力を強化します。
では、問題です。コンテンツ共有プラットフォームとして、既に競争の激しいAI大規模モデル業界において、なぜXiaohongshuは自らマルチモーダル大規模モデルの自主開発に乗り出したのでしょうか?
マルチモーダルAIはAGIへの不可欠な道となる
4月のOpenAIのGPT-4o「ネイティブなオールラウンドマルチモーダルモデル」が引き起こした「ジブリ熱」からもわかるように、単なるテキストではマルチモーダル大規模モデルには及びません。
ジブリ風の画像とSoraコミュニティの画像
マルチモーダルAI能力が重要である理由は、それが人間が複数の感覚を統合して世界を認識する方法を模倣し、より包括的で詳細な理解を形成できるためです。
異なるモダリティの情報優位性を組み合わせることで、AIシステムは複雑なシナリオに対してより全体的な判断を下すことができます。
テスラロボットがポップコーンを売る
そして、視覚やテキストなどの能力を統合した視覚言語モデル(VLM)は、企業側でのアップグレードの主戦場となっています。
自動運転であろうと身体化AIであろうと、ロボットの目、さらには脳としてVLMが必要とされ、それらが人間社会を理解し、溶け込むのを助けます。
VLMモデルのユースケース
同時に、李飛飛の「世界モデル」、Googleが発表したばかりのGenie3などの3D世界生成技術と身体化AIは、マルチモーダルをさらに高い次元へと押し上げています。
Googleが発表したばかりのGenie 3
コンテンツの理解と生成だけでなく、現実の物理世界をシミュレートし、自律的に進化することで、より自然な人間と機械のインタラクション形態が生まれるでしょう。
画像やビデオ生成の他、GoogleのNotebookLMはテキストから会話形式のポッドキャストを生成でき、オーディオ分野に特化しています。
その中で、テキスト-to-画像モデルと視覚言語モデルは、マルチモーダルAIにおける密接に関連しながらも目的が異なる2つの分野です。
前者は画像の生成に重点を置き、後者は画像の理解とテキスト出力に重点を置いています。
テキスト-to-画像モデルは依然として産業のホットスポットであり、MidjourneyやSoraなどがその例で、クリエイティブ、コンテンツ生成、広告などの分野で広く応用されています。
VLMは理解と推論の面でますます重要な役割を果たしており、特に現在の身体化AIや自動運転などの分野で強い需要があります。
しかし、業界は両者の境界を曖昧にし始めており、テキスト-to-画像、VLMともに「融合」MLLM(マルチモーダルLLM)へと変化しつつあります。
今後リリースされるGPT-5やGoogleのGemini 2.5 Proなどは、「オールラウンド」なモデルです。
重点は異なりますが、テキスト-to-画像モデルとVLMは、本質的にモデルが視覚と言語の間の関連性を学習することを要求します。
Xiaohongshuがテキスト-to-画像モデルよりもVLMを優先してリリースしたのは、テキスト-to-画像モデルの使用シーンが「補助的な創作」に重点を置いているのに対し、VLMは「AIが人間をより理解する」ことに重点を置いているからだと推測されます。
なぜなら、Xiaohongshuの現在の月間アクティブユーザー数は3.5億人を超え、毎日膨大な量の画像とテキストコンテンツがユーザーによって生成されています。これらのコンテンツをよりよく理解し、より正確なパーソナライズされた推薦を行う上で、大規模モデルは大きな役割を果たすことができます。
同時に、将来AIがコミュニティのインタラクションにどのように関与するかは、長期的に探求すべき問題となるでしょう。
Xiaohongshuの技術自主開発への決意は、以前よりも強固になっています。
昨年、自社クラウドを構築したことに加え、最近、多くの人が見過ごしているとある噂があります。それは、Xiaohongshuが8月中旬にオンラインオフィスソフトウェアをWeChat Workから自社開発の「redcity」に完全に移行するというものです。
当時、一部の従業員は、「自社開発IM」はユニコーン企業が一流の大企業になるための必須の道であり、これは明確な戦略転換だと考えていました。
したがって、Xiaohongshuが大規模モデルの自主開発に乗り出すのも非常に理にかなっており、必然であるとさえ言えるでしょう。
Xiaohongshuが追求する多元的な知能
2ヶ月前にオープンソース化されたdots.llm1、先週オープンソース化されたdots.ocr、そして今回発表されたdots.vlm1を見ると、Xiaohongshuヒューマンインテリジェンスラボは自社の大規模モデルを開発する決意を固めたことがわかります。
dotsモデルファミリーも拡大を続けています。
もう一つ注目すべき点は、今回のdots.vlm1がDeepSeek V3をベースにしており、彼ら自身のdots.llm1ではないことです。
これは、Xiaohongshu内部でのプロジェクト立ち上げ時に、おそらく同時に並行して開始されたもので、VLMのトレーニングがより複雑であるため、少し遅くなった可能性があると推測できます。
しかし、これはXiaohongshuが最初から自社開発のマルチモーダル大規模モデルに取り組むことを考えていたことを示唆しています。将来的には、dotsのマルチモーダルモデルがdotsのテキストモデルをベースにトレーニングされる可能性も否定できません。
おそらくXiaohongshuは今回のVLMを「理解の基盤」として捉え、「ユーザーを理解し、コンテンツを理解する」ことを極限まで追求し、その後、画像生成やビデオ生成などの創作能力を段階的に開発していくでしょう。
これらのモデル能力は、将来的にXiaohongshuのアプリケーション製品とより良く統合され、「モデルとアプリケーションの一体化」という予言を証明するかもしれません。
今年初め、Xiaohongshu hi labは「AI人文トレーナー」チームの募集を開始し、AIがより良い後学習を行うのを支援しています。
「AI人文トレーナー」チームのメンバーは、哲学、文学、政治学、人類学、歴史、映画芸術など、非常に多様なバックグラウンドを持っています。これらの「文系専門」の背景は、ある意味でXiaohongshuのマルチモーダルAIに対する深い理解を反映しています。
hi labの次なるオープンソース作品を楽しみにしています~