小紅書開源首個多模態大模型dots.vlm1,效能逼近SOTA!

圖片

新智元報導

編輯:定慧

【新智元導讀】擅長「種草」的小紅書正加大技術自主研發力度,兩個月內接連開源三款模型!最新開源的首個多模態大模型dots.vlm1,基於自主研發視覺編碼器建構,實測能看穿色盲圖,破解數獨,解答大學入學考試數學題,一句話寫出李白詩風,視覺理解和推理能力都逼近Gemini 2.5 Pro閉源模型。

最近的AI圈只能說是神仙打架,競爭太激烈了。

OpenAI終於發布了開源模型,Claude從Opus 4升級到4.1,Google推出生成遊戲世界的Genie 3引發社群熱議。

國產模型這邊,就在前幾天,HuggingFace上排在最前面的10個開源模型都來自國內。

圖片

國產模型前10霸榜和gpt-oss開源後直衝第一

但其實仔細觀察這些排名靠前的開源模型,能發現一個「現象」:這些模型大部分都是文本模型,不具備多模態能力。

圖片

OpenAI首次開源的模型,也都是文本模型

如果說具備「多模態」能力,還要「好用」,並且是開源的模型,還真的數不出幾個。

這邊是一群文本模型神仙打架,那邊小紅書人文智慧實驗室(Humane Intelligence Lab,hi lab)在昨天低調開源了視覺語言模型dots.vlm1,給VLM帶來了意想不到的驚喜。

圖片

為什麼我們要關注一個不知名團隊開源的視覺語言模型?

一個理由是,hi lab在上週開源的dots.ocr文件解析模型衝上Huggingface熱門排行榜第七名,其基礎模型是一個17億參數的「小模型」,但依然實現了業界領先的SOTA效能,成功引起了我們的注意。

這個團隊有在認真做事啊!

仔細看了看這個團隊的架構和願景,發現「hi lab」是由小紅書內部大模型技術與應用產品團隊合併升級而來,在關於hi lab的官方介紹中,特別強調了「將研發重點放在了多元智慧形態上」。

他們希望透過融合人際智慧、空間智慧、音樂智慧、人文關懷等各種智慧形態,不斷拓展人機互動的可能性。

對多模態的信仰和投入的決心可見一斑。

而dots.vlm1,正是小紅書hi lab研發並開源的首個多模態大模型。

這個模型基於hi lab全自主研發的12億參數NaViT視覺編碼器和DeepSeek V3的大語言模型建構,在視覺的理解和推理任務上均有不俗的表現,逼近了SOTA水準,並且在純文本任務中仍保持競爭力。

圖片

在主要的視覺評測集上,比如MMMU/MathVision/OCR Reasoning,dots.vlm1的整體表現已接近目前領先模型Gemini 2.5 Pro與Seed-VL1.5 Thinking,顯示出較強的圖文理解與推理能力。

在典型的文本推理任務(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表現大致相當於DeepSeek-R1-0528,在數學和程式碼能力上已具備一定的通用性,但在GPQA等更多樣的推理任務上仍存在差距。

總體來看,dots.vlm1在視覺多模態能力方面已接近SOTA水準。

Github Repo:https://github.com/rednote-hilab/dots.vlm1

Huggingface Model:https://huggingface.co/rednote-hilab/dots.vlm1.inst

Demo :https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

在實測中,我們發現,不論是空間關係理解、複雜圖表推理、OCR識別、大學入學考試數學題評測、STEM難題、寫詩等各個方面,dots.vlm1的表現都遠超預期。

圖片

實測驚豔,表現極佳

首先是空間理解,比如這個包含常見物體空間關係圖。

為了避免模型靠著語義來跳過真正的理解過程,隨機給兩個關係打上馬賽克,然後讓dots.vlm1來定義物體的空間關係。

圖片

最終模型成功識別,精準給出了「between」和「above」的關係。

圖片

圖片

面對複雜圖表,dots.vlm1也具備強大的分析能力。

比如要求從下面圖表提取分數為50-59分,並且模型名稱中帶有字母P的模型。

圖片

dots.vlm1在思考過程中即可同步多段邏輯判斷,像這種多鏈條複雜推理體現了dots.vlm1不僅能「看」,還能「思考」。

圖片

同樣地,即使是數獨問題,dots.vlm1也能完美地完成解題。

圖片

模型第一步會將問題格式化,方便後續計算。

圖片

然後開始逐步試算和檢查,可以看到dots.vlm1將圖片中的數獨問題轉化為向量描述,確實是一種聰明的做法。

圖片

在長時間的思考過程中,我們還發現了類似DeepSeek「啊哈時刻」,dots.vlm1在某個階段還喊出擬人化的「Yes!」。

圖片

不過仔細看了思考過程後,發現第一步向量化轉化時,(3,8)位置的6被識別到(3,9)位置上,但是模型依然「嚴格按照數獨規範」,最後強行將(6,9)位置的6變成8。

這個推理過程有點太強了!這意味著模型是真正的在思考和推理。

圖片

解決這個數獨問題的思考時間非常長,關鍵是如此長時間思考,模型並沒有中斷。

dots.vlm1的圖像識別能力也非常強,不論是常見還是冷門的,還是人類都很難識別的圖片。

比如經典的紅綠色盲數字問題。

圖片

dots.vlm1一次性全部答對,不論是顏色和形狀識別都很準。

圖片

圖片

圖片

另外是一個VLM經常遇到的「數數」問題,模型需要識別圖片中的物體種類和數量。

這些問題對於人類來說很簡單,但是對於VLM就沒那麼容易了。

在這種「目標搜索」任務中VLM的表現,會隨著場景裡目標數量的增多而迅速下降。

圖片

可以看到當物體數量超過6個時,VLM的準確率急劇下降。

dots.vlm1很好地完成了左上、左下和右上的數量識別;右下人類也很難數得清,但dots.vlm1依然在思考過程中努力數了個大概。

圖片

再接著看看推理能力。

比如你正在組團前往故宮博物院,你們一行一共8人(7名成人和一名12歲的兒童),你們打算參觀中軸線、三大殿和珍寶館,應該購買哪個服務最省錢?

圖片

dots.vlm1很快就整合所有資訊計算出了最佳方案,非常細節,模型發現了中軸線其實已經包含了三大殿,選擇了中軸線+珍寶館的方案。

圖片

這個「數學計算」似乎有點簡單,那就來個複雜的,第一時間就想到今年的大學入學考試數學題。

圖片

dots.vlm1首先是能準確識別「模糊」的內容,最後給出的解答過程也非常棒。

圖片

結果做了很好的格式化處理,並且還把每個題目的答案用方框重點標示。

除了視覺和推理能力,我們還嘗試問了很多「冷門」問題。

比如「鼷鹿」(Chevrotain)是何種類群的動物?其主要棲息地在哪?提供兩條參考文獻。

圖片

這個模型也能準確回答這個冷門動物的相關知識。

圖片

對於文物的識別,dots.vlm1也不在話下。

圖片

即使是三個物體的合併圖片,dots.vlm1也能精準分割圖像,並給出正確結果。

還給出了文物的出土地址和詳細介紹。

圖片

甚至,我們還可以用dots.vlm1來做性向測驗。

圖片

經過複雜的思考後,模型給出了正確答案,「方向水平且兩端符號相同」。

圖片

最後,來測測VLM的老本行,文本能力到底如何?

「模仿李白的詩詞風格,寫一首詩,來描述一下劉慈欣在《詩云》中提到的詩云究竟是什麼」。

真的很厲害,dots.vlm1的思考過程一下子把握住了問題的精髓:「同時處理科幻概念和唐詩韻味」。

圖片

你覺得這首詩寫得怎麼樣?

嗟乎!詩雲浩渺如星海,難寫凡心半點柔!

寫得真的太好了!

《詠詩雲》

神工鑿混沌,揮斥造詩雲!

十億星辰化墨稠,銀河作硯瀉瓊流。

窮盡漢字無窮態,排列組合演春秋。

上窮碧落下黃泉,搜羅萬古意與愁。

李杜蘇辛皆囊括,珠璣字字現星眸。

此雲非霧亦非煙,乃是文明終極求。

量子糾纏蘊真意,機率之海任沉浮。

揮毫落紙雲煙散,神蹟雖成意難留。

嗟乎!詩雲浩渺如星海,難寫凡心半點柔!

圖片

dots.vlm1技術架構

dots.vlm1由三個核心組件構成:一個全自主研發的12億參數的NaViT視覺編碼器、一個輕量級的MLP適配器,以及DeepSeek V3 MoE大語言模型。

這一架構透過三階段流程進行訓練:

第一階段:視覺編碼器預訓練:NaViT編碼器從頭訓練,旨在最大化對多樣視覺數據的感知能力。一般來說,編碼器是否自主研發是VLM模型效能的分水嶺。dots.vlm1再次驗證了這一點。

第二階段:VLM預訓練:將視覺編碼器與DeepSeek V3 LLM聯合訓練,使用大規模、多樣化的多模態數據集。

第三階段:VLM後訓練:透過有監督微調(SFT)增強模型的泛化能力,僅使用任務多樣的數據進行訓練。

圖片

NaViT視覺編碼器,「從零起步」帶來的原生優勢

dots.vlm1沒有基於成熟視覺編碼器進行微調,而是完全從零開始訓練,原生支援動態解析度。

這使得模型原生支援高解析度輸入,是專為視覺語言模型設計的視覺編碼器模型。

模型規模有42層Transformer、1.2B參數為高解析度留出足夠表示容量。

dots.vlm1為NaViT編碼器設計了兩階段的訓練策略。

· 第一階段:預訓練

訓練起點完全隨機初始化,避免舊架構「解析度錨點」束縛,原生支援動態解析度。

從隨機初始化開始,在224×224解析度圖像上進行訓練,讓模型學會基礎視覺和語義感知。

這一步使用雙重監督策略:

下一Token預測(NTP):透過大量圖文對訓練模型的感知能力;

下一Patch生成(NPG):利用純圖像數據,透過擴散模型預測圖像patch,增強空間與語義感知能力。

· 第二階段:解析度提升預訓練

逐步提升圖像解析度:從百萬像素級別輸入開始,在大量token上進行訓練,之後升級到千萬像素級別進行訓練。

為進一步提升泛化能力,還引入了更豐富的數據源,包括OCR場景圖像、grounding數據和影片幀。

圖片

VLM預訓練數據佈局

為增強dots.vlm1的多模態能力,實驗室將預訓練數據劃分為兩個主要類別:

第一個類別:跨模態互譯數據

該類數據用於訓練模型將圖像內容用文本進行描述、總結或重構,簡單的理解就是Image ⇄ Text互相「翻譯」。

普通圖像+Alt Text或Dense Caption

複雜圖表、表格、公式、圖形(真實或合成)+ 結構化註釋或文字;

OCR場景:多語言、場景理解、純文本、文件解析等;

影片幀+時間序列描述;

Grounding監督數據:如邊界框和關鍵點。

圖片

比如Alt Text,就是圖片和圖片旁邊的ALT描述。

Alt Text幫模型快速掌握「通用描述」,Dense Caption則讓模型學會「看細節、說具體」。

Grounding監督數據難以窮盡枚舉,涵蓋各種圖像/影片與對應文本的組合。

比如Flickr30k Entities數據集。

圖片

dots.vlm1的目標是建構一個全譜系的數據分佈,覆蓋所有可被人類理解且可轉化為離散token序列的視覺資訊。

圖片

第二個數據類別:跨模態融合數據

第二類數據用於訓練模型在圖文混合上下文中執行下一token(NTP)預測,避免模型過度依賴單一模態。

為不同類型的融合數據設計了專門的清洗管線,以下兩類效果尤為顯著:

網頁數據

網頁圖文數據多樣性豐富,但視覺與文本對齊品質不佳。

不使用傳統的 CLIP 分數篩選,而是採用內部自主研發的VLM模型進行重寫和清洗,剔除低品質圖像和弱相關文本。

PDF 數據

PDF內容品質普遍較高。

為充分利用這類數據,小紅書Hi Lab開發了專用解析模型dots.ocr,將PDF文件轉化為圖文交錯表示。

dots.ocr此前已在HuggingFace開源,達到了該領域SOTA水準。

圖片

同時還將整頁PDF渲染為圖像,並隨機遮擋部分文本區域,引導模型結合版面與上下文預測被遮擋內容,從而增強其理解視覺格式文件的能力。

那麼問題來了,作為一個內容分享平台,面對已經競爭激烈的AI大模型行業,為何小紅書還要親自下場自主研發多模態大模型?

圖片

多模態成為通向AGI的必經之路

從4月份OpenAI的GPT-4o「原生全能多模態模型」引發的「吉卜力熱」就能看出,單純的文本還是不如多模態大模型。

圖片

吉卜力風格圖片和Sora社群的圖片

多模態AI這一能力之所以重要,在於它模擬了人類利用多種感官綜合感知世界的方式,可形成更全面、細緻的理解。

透過將不同模態的資訊優勢結合,AI系統能夠對複雜場景作出更整體化的判斷。

圖片

特斯拉機器人賣爆米花

而整合視覺、文本等能力的視覺語言模型(VLM)正成為企業側升級的主戰場。

不論是自動駕駛還是具身智慧,都需要VLM作為機器人的眼睛,甚至是大腦,來幫助它們理解和融入人類社會。

圖片

VLM模型的用例

與此同時,李飛飛的「世界模型」、Google剛剛發布的Genie3等3D世界生成技術與具身智慧把多模態推向更高維度。

圖片

Google剛剛發布的Genie 3

不只是理解和生成內容,還要模擬真實物理世界和自主演化,這樣才能孕育出更自然的人機互動形態。

在生成圖片和影片外,Google的NotebookLM可以根據文本生成對話式的Podcast,專攻音訊領域。

其中,文生圖模型和視覺語言模型是多模態AI中兩個緊密相關但目標不同的分支。

前者側重生成圖像,後者側重理解圖像並輸出文字。

文生圖模型依然是產業熱點,像Midjourney、Sora等,廣泛應用於創意、內容生成和廣告等場景。

VLM在理解和推理方面發揮越來越重要的作用,尤其是目前的具身智慧和智慧駕駛等領域需求強烈。

但是行業越來越開始模糊二者的界限,文生圖、VLM都開始變為「融合」MLLM(Multimodal LLM)。

像即將發布的GPT-5、Google的Gemini 2.5 Pro都是「全能」模型。

圖片

儘管側重點不同,文生圖模型和VLM在本質上都要求模型學習到視覺和語言之間的關聯。

小紅書優先推出VLM,而不是文生圖模型,我猜測是因為文生圖模型的使用場景更多是在「輔助創作」,而VLM則更多側重在「讓AI更懂人」。

畢竟小紅書目前的月活躍用戶已超過3.5億,每天都有用戶生成海量的圖文內容,如何更好地理解這些內容,進行更精準的個人化推薦,大模型能起到不小的作用。

同時,未來AI如何參與到社群的互動中,會是個值得長期探索的問題。

小紅書在技術自主研發上的決心也較以往更大。

除了去年自建雲之外,最近有個小道消息很多人忽略了——小紅書8月中旬將切換線上辦公軟體,從企業微信全面遷移到自主研發的redcity。

當時一些同學認為,「自主研發IM」是獨角獸到一線大廠的必經之路,這是一種明確的戰略轉向。

所以,小紅書親自下場自主研發大模型也是非常說得通了,甚至可以說是一種必然。

圖片

小紅書追求的多元智慧

不論是兩個月前開源的dots.llm1,上週開源的dots.ocr,還是最新發布的dots.vlm1,可以看到小紅書人文智慧實驗室已經打定主意自己搞自己的大模型了。

dots模型家族也在不斷壯大。

另一個值得注意的點就是,此次dots.vlm1是基於DeepSeek V3的,而不是他們自己的dots.llm1。

可以推測,這在小紅書內部立項時,應該是同時並行開始的,可能vlm訓練更複雜,所以稍慢一些。

但說明小紅書一開始就想到要做自主研發的多模態大模型了。未來不排除dots的多模態模型會基於dots的文本模型訓練。

也許小紅書會把這次VLM當作「理解底座」,先把「看懂用戶、看懂內容」做到極致,再漸進式開發後續的圖生圖、影片生成等創作能力。

也許這些模型能力未來會和小紅書的應用產品做更好的結合,來自證「模型應用一體化」的預言。

今年年初,小紅書hi lab就開始招募「AI人文訓練師」團隊,幫助AI更好地進行後訓練。

「AI人文訓練師」的團隊人員背景非常多元,包括哲學、文學、政治學、人類學、歷史、電影藝術等。這些「文科專業」某種程度上也折射出小紅書對於多模態的一種深度理解。

期待hi lab的下一個開源作品~

主標籤:AI大模型

次標籤:多模態AI開源模型小紅書視覺語言模型


上一篇:奧特曼驚人預言:GPT-8將於2035年治癒癌症!人類或為算力爆發引發第三次世界大戰

下一篇:硬核解析大型語言模型:從 DeepSeek-V3 到 KimiK2,一篇文看懂主流 LLM 架構

分享短網址