專注於AIGC領域的專業社群,關注微軟&OpenAI、百度文心一言、訊飛星火等大型語言模型(LLM)的發展與應用落地,聚焦LLM的市場研究和AIGC開發者生態。
今天凌晨,阿里巴巴達摩院開源了最新文生圖模型Qwen-Image。
Qwen-Image是一個200億參數的MMDiT模型,可生成寫實、動漫、賽博龐克、科幻、極簡、復古、超現實、水墨等幾十種圖片類型,支援圖片的風格遷移、增刪改、細節增強、文字編輯,人物姿態調整等常規操作。
Qwen-Image也可以生成OpenAI的GPT-4o爆紅全網的吉卜力風格圖片。根據「AIGC開放社群」實際測試,兩者差距很小,尤其在超複雜中文提示詞理解、文字嵌入方面,Qwen-Image表現更佳。
根據阿里公布的測試數據顯示,Qwen-Image在GenEval、DPG、OneIG-Bench以及GEdit、ImgEdit和GSO測試中,圖片生成、編輯能力非常出色,大幅度超越了文生圖開源黑馬FLUX.1 [Dev],成為中文最佳的文生圖模型。
免費線上體驗地址:https://chat.qwen.ai/c/guest
開源地址:https://huggingface.co/Qwen/Qwen-Image
https://modelscope.cn/models/Qwen/Qwen-Image
https://github.com/QwenLM/Qwen-Image
目前,阿里免費提供Qwen-Image,甚至無需註冊帳號,以訪客模式也能使用。打開上方網址,然後選擇下方的“圖像生成”即可開始。
在生成圖像前,我們可以選擇圖像比例,如1:1、3:4、16:9等不同類型,可適配手機、平板等不同設備和媒體平台。製作封面、插圖都非常好用。
先試一個簡單的提示詞:在風雨中奔跑的小女孩,面帶笑容,上面寫著Qwen-Image。吉卜力風格。
試一個複雜點的:古代的長安城街道,街道兩旁是古色古香的建築,有酒樓、茶館、商鋪等,街上的行人穿著各式各樣的古裝,有的騎馬,有的步行,還有小販在叫賣商品,充滿了濃厚的歷史氛圍。一座顯眼的酒樓牌匾上寫著“阿里巴巴達摩院”。
一位穿著「QWEN」標誌T恤的中國美女正拿著黑色的麥克筆面向鏡頭微笑。她身後的玻璃板上手寫體寫著:「一、Qwen-Image的技術路線:探索視覺生成基礎模型的極限,開創理解與生成一體化的未來。
二、Qwen-Image的模型特色:1、複雜文字渲染。支援中英渲染、自動佈局;2、精準圖像編輯。支援文字編輯、物體增減、風格變換。三、Qwen-Image的未來願景:賦能專業內容創作、助力生成式AI發展。」
再試一個英文的提示詞:An ancient battlefield, with dark clouds in the sky, thunder rumbling and lightning flashing. Soldiers in armor are fighting bravely on the battlefield. In the distance, huge monsters are roaring, as if it is a contest between humans and mythical creatures, filled with a tense and exciting atmosphere
中文意思:古代的戰場,天空中烏雲密布,電閃雷鳴,戰場上有穿著盔甲的士兵在奮勇廝殺,遠處有巨大的怪獸在咆哮,彷彿是一場人與神話生物的較量,充滿了緊張與刺激的氛圍。
一片無垠的沙漠在夜晚靜靜鋪展,天空中銀河清晰可見,星星密佈如銀沙,前景是一座起伏的沙丘,風吹過留下細膩的波紋,寧靜、莊嚴而神秘。
我們來體驗一下Qwen-Image強大的圖像編輯能力,就把上面剛生成的沙漠圖片,轉換成吉卜力風格吧。
直接把圖片上傳到對話框,然後輸入:「幫我把這張圖片轉換成白天吉卜力風格。」
再把第一個生成的吉卜力風格小女孩轉換成寫實女孩。
對於阿里新開源的Qwen-Image,網友表示:「非常好,和GPT-4o一樣棒。」
「圖片看起來好極了,一定要試試。」
Qwen團隊在所有模型上都勢如破竹!幹得好,Qwen3系列對於本地開源模型來說是相當大的升級。而現在,甚至連圖像生成也是如此。
這真是一個超棒的模型,從未想過Qwen能推出200億參數的多模態擴散文本到圖像生成模型,但它確實來了!
它在各項基準測試中性能超越了所有其他模型,並採用Apache許可證發布,這非常值得稱讚。祝賀Qwen團隊。
Qwen-Image模型一共由多模態大型語言模型、變分自編碼器和多模態擴散Transformer(MMDiT)三大塊組成。
其中,多模態大型語言模型扮演著條件編碼器的角色,負責從文本輸入中提取關鍵特徵。Qwen-Image選用Qwen2.5-VL作為這一模組的實現。Qwen2.5-VL不僅在語言和視覺空間的對齊上表現出色,能夠使語言和圖像信息在同一個維度上相互呼應,而且在語言建模能力上也毫不遜色,與純粹的語言模型相比,幾乎沒有任何性能損失。
Qwen-Image支援多模態輸入,能夠同時處理文本和圖像,解鎖了更廣泛的功能,例如圖像編輯等高級應用。當用戶輸入文本描述時,Qwen2.5-VL會提取其中的關鍵特徵,將其轉化為高維空間中的向量表示,為後續的圖像生成提供精準的語義指導。
變分自編碼器則承擔著圖像token化的功能,負責將輸入圖像壓縮為緊湊的潛在表示,並在推理階段將潛在表示解碼回圖像。Qwen-Image的VAE設計採用了單編碼器、雙解碼器架構,這一設計源於對通用視覺表示的追求,既需兼容圖像與視頻,又要避免聯合模型常見的性能妥協。
Qwen-Image基於Wan-2.1-VAE的架構,凍結其編碼器以保持基礎能力,僅針對圖像解碼器進行微調,使其更專注於圖像領域的重建任務。為提升小文本和精細細節的重建保真度,解碼器的訓練數據包含大量文本豐富的圖像,涵蓋真實文檔與合成段落,涉及多種語言。
在訓練策略上,透過平衡重建損失與感知損失減少網格偽影,並動態調整兩者比例,同時發現當重建品質提升後,對抗損失效果減弱,因此僅保留前兩種損失,最終實現了在保證效率的同時,增強細節渲染能力目標。
MMDiT作為Qwen-Image的核心架構,主要負責在文本引導下對雜訊與圖像潛在表示之間的複雜聯合分佈進行建模。還引入了創新的Multimodal Scalable RoPE(MSRoPE)嵌入方法,有效解決了文本與圖像在聯合編碼時的位置混淆問題。
傳統方法中,文本token常直接拼接在圖像位置嵌入之後,或被視為特定形狀的2D token,易導致部分位置編碼同構,影響模型區分能力。
而MSRoPE將文本輸入視為二維張量,在兩個維度上應用相同的位置ID,概念上沿圖像對角線進行拼接,既保留了圖像解析度縮放的優勢,又在文本側保持了與1D-RoPE的功能等效,無需為文本確定最佳位置編碼,顯著提升了圖文對齊的準確性。