AIGC分野に特化した専門コミュニティであり、マイクロソフト&OpenAI、百度文心一言、訊飛星火などの大規模言語モデル(LLM)の発展と応用展開に注目し、LLMの市場研究とAIGC開発者エコシステムに焦点を当てています。
今朝早く、アリババのDAMOアカデミーが最新のテキストから画像生成モデル、Qwen-Imageをオープンソース化しました。
Qwen-Imageは200億パラメータのMMDiTモデルで、写実的、アニメ、サイバーパンク、SF、ミニマリスト、レトロ、シュール、水墨画など数十種類の画像を生成でき、スタイルの変換、追加・削除・修正、詳細強化、テキスト編集、人物ポーズ調整などの一般的な操作をサポートしています。
Qwen-ImageはOpenAIのGPT-4oがネットで爆発的に人気となったジブリ風の画像も生成できます。「AIGCオープンコミュニティ」の実測によると、両者の差は非常に小さく、特に超複雑な日本語プロンプトの理解とテキスト埋め込みにおいては、Qwen-Imageの方が優れています。
アリババが公開したテストデータによると、Qwen-ImageはGenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSOの各テストにおいて、画像生成・編集能力が非常に優れており、テキストから画像生成のオープンソース注目株であるFLUX.1 [Dev]を大幅に凌駕し、中国語最高のテキストから画像生成モデルとなっています。
無料オンライン体験サイト:https://chat.qwen.ai/c/guest
オープンソースリポジトリ:https://huggingface.co/Qwen/Qwen-Image
https://modelscope.cn/models/Qwen/Qwen-Image
https://github.com/QwenLM/Qwen-Image
現在、アリババはQwen-Imageを無料で提供しており、アカウント登録なしのゲストモードでも利用可能です。上記のアドレスを開き、下部の「画像生成」を選択すれば開始できます。
画像を生成する前に、1:1、3:4、16:9などの画像比率を選択でき、スマートフォンやタブレットなど様々なデバイスやメディアプラットフォームに適応可能です。表紙や挿絵の作成に非常に便利です。
まず簡単なプロンプトを試します:雨の中を走る少女、笑顔で、Qwen-Imageと書かれています。ジブリ風。
より複雑なものを試します:古代の長安城の通り、両側には古風な建物が立ち並び、酒楼、茶館、商店などがあります。通りを行き交う人々は様々な古代衣装を身に着け、馬に乗る者、歩く者、そして商品を叫び売る行商人がいて、濃厚な歴史の雰囲気に満ちています。目立つ酒楼の看板には「アリババダーモアカデミー」と書かれています。
「QWEN」ロゴのTシャツを着た中国の美女が、黒いマーカーペンを持ってカメラに向かって微笑んでいます。彼女の後ろのガラス板には手書きで「一、Qwen-Imageの技術ロードマップ:視覚生成基盤モデルの限界を探求し、理解と生成が一体となった未来を切り開く。
二、Qwen-Imageのモデル特徴:1、複雑なテキスト描画。日本語と英語の描画、自動レイアウトをサポート。2、正確な画像編集。テキスト編集、オブジェクトの増減、スタイル変換をサポート。三、Qwen-Imageの将来のビジョン:プロのコンテンツ制作を支援し、生成AIの発展を促進する。」と書かれています。
英語のプロンプトも試してみます:An ancient battlefield, with dark clouds in the sky, thunder rumbling and lightning flashing. Soldiers in armor are fighting bravely on the battlefield. In the distance, huge monsters are roaring, as if it is a contest between humans and mythical creatures, filled with a tense and exciting atmosphere
日本語の意味:古代の戦場、空には暗い雲が立ち込め、雷が轟き、稲妻が光る。戦場では鎧を着た兵士たちが勇敢に戦っている。遠くには巨大な怪獣が咆哮しており、まるで人間と神話の生物との戦いのように、緊張と興奮に満ちた雰囲気が漂っている。
夜に静かに広がる無限の砂漠、空には天の川がはっきりと見え、星々は銀砂のように密に散りばめられている。前景には起伏する砂丘があり、風が吹くと繊細な波紋が残り、静かで荘厳で神秘的である。
Qwen-Imageの強力な画像編集能力を体験してみましょう。先ほど生成した砂漠の画像をジブリ風に変換します。
画像を直接チャットボックスにアップロードし、「この画像を昼のジブリ風に変換してください」と入力します。
次に、最初に生成したジブリ風の少女をリアルな少女に変換します。
アリババが新たにオープンソース化したQwen-Imageについて、ネットユーザーは「非常に良い、GPT-4oと同じくらい素晴らしい」とコメントしています。
「画像は素晴らしく見える、ぜひ試してみるべきだ。」
Qwenチームはすべてのモデルで破竹の勢いだ!Qwen3シリーズはローカルのオープンソースモデルにとってかなりのアップグレードだ。そして今、画像生成も同様にすごい。
これは本当に素晴らしいモデルだ。Qwenが200億パラメータのマルチモーダル拡散テキストから画像生成モデルをリリースするとは夢にも思わなかったが、それが実現した!
それはすべてのベンチマークテストで他のすべてのモデルの性能を上回り、Apacheライセンスでリリースされたことは非常に称賛に値する。Qwenチーム、おめでとう。
Qwen-Imageモデルは、マルチモーダル大規模言語モデル、変分オートエンコーダ、マルチモーダル拡散Transformer(MMDiT)の3つの主要部分で構成されています。
その中で、マルチモーダル大規模言語モデルは条件エンコーダの役割を担い、テキスト入力から重要な特徴を抽出します。Qwen-Imageはこのモジュールの実装にQwen2.5-VLを採用しています。Qwen2.5-VLは、言語と視覚空間のアラインメントにおいて優れた性能を発揮し、言語と画像情報を同じ次元で相互に呼応させることができ、純粋な言語モデルと比較しても言語モデリング能力が劣ることなく、パフォーマンス損失はほとんどありません。
Qwen-Imageはマルチモーダル入力をサポートしており、テキストと画像を同時に処理することで、画像編集などのより広範な高度な機能を実現します。ユーザーがテキスト記述を入力すると、Qwen2.5-VLはそこから主要な特徴を抽出し、高次元空間のベクトル表現に変換して、その後の画像生成に正確な意味的ガイダンスを提供します。
変分オートエンコーダは画像トークン化の機能を担い、入力画像をコンパクトな潜在表現に圧縮し、推論段階で潜在表現を画像にデコードします。Qwen-ImageのVAE設計はシングルエンコーダ、デュアルデコーダアーキテクチャを採用しており、この設計は汎用視覚表現の追求から生まれました。画像とビデオの両方に対応する必要があり、結合モデルでよく見られる性能の妥協を避けるためです。
Qwen-ImageはWan-2.1-VAEのアーキテクチャに基づいており、そのエンコーダを凍結して基本能力を維持し、画像デコーダのみを微調整することで、画像領域の再構築タスクに特化させています。小さなテキストや微細な詳細の再構築忠実度を高めるため、デコーダのトレーニングデータには大量のテキストが豊富な画像が含まれており、実際の文書と合成段落の両方を含み、多言語に対応しています。
トレーニング戦略では、再構築損失と知覚損失のバランスを取ることでグリッドアーティファクトを減らし、両者の比率を動的に調整しました。また、再構築品質が向上すると敵対的損失の効果が弱まることが判明したため、最初の2つの損失のみを保持し、最終的に効率を保ちつつ詳細描画能力を向上させる目標を達成しました。
MMDiTはQwen-Imageのコアアーキテクチャとして、主にテキストの誘導下でノイズと画像の潜在表現間の複雑な結合分布をモデル化する役割を担っています。さらに、革新的なマルチモーダルスケーラブルRoPE(MSRoPE)埋め込み手法も導入されており、テキストと画像が結合エンコードされる際の「位置の混同問題」を効果的に解決しています。
従来の方法では、テキストトークンは画像の位置埋め込みの後に直接結合されるか、特定の形状の2Dトークンとして扱われることが多く、一部の位置エンコーディングが同型となり、モデルの区別能力に影響を与える可能性がありました。
一方、MSRoPEはテキスト入力を二次元テンソルとみなし、2つの次元に同じ位置IDを適用することで、概念的に画像の対角線に沿って結合します。これにより、画像解像度スケーリングの利点を維持しつつ、テキスト側では1D-RoPEと同等の機能を保ち、テキストに最適な位置エンコーディングを決定する必要がなくなり、画像とテキストのアラインメントの精度が大幅に向上しました。