Seed1.5-VL技術報告解讀

字節最新發布了一個強悍的閉源多模態大語言模型Seed1.5-VL,其技術報告內容簡非常坦誠,值得一讀。筆者將在本文帶大家按文章的寫作順序,一步步精讀這篇技術報告。

概述

圖片https://arxiv.org/abs/2505.07062

Seed1.5-VL由一個擁有532M參數的視覺編碼器和一個擁有20B活躍參數的MoE LLM構成,在60個多模態視覺語言模型的Benchmark中有38個達到了SOTA。在GUI、視頻理解、視覺推理中表現出了極強的性能。目前Seed1.5-VL是一個商用模型,已經開放收費API使用,但並不開源。

模型結構

圖片

首先Seed1.5-VL的模型結構依然是典型的VLM構造,一個原生動態分辨率的Seed-ViT作為圖像編碼器,與Qwen2-VL類似,使用2D RoPE位置編碼,接著是一個MLP Adapter,最後連接到一個自回歸的LLM。(關於視覺編碼器的輸入分辨率問題,可參考本號的高分辨率MLLM系列:通向高分辨率VLM (11): VILA-HD)

圖片

固定的分辨率在實際應用中面臨諸多問題,尤其是OCR等需要圖像細節的任務性能會受到巨大影響,為應對圖像輸入分辨率的挑戰,本文開發了原生分辨率的視覺編碼器Seed-ViT。

圖片

Seed-ViT預訓練流程分為三個階段:(1)帶有2D RoPE的遮罩圖像建模(Masked Image Modeling,MIM),(2)原生分辨率對比學習,以及(3)全模態預訓練(Omni-modal Pre-training)。

在第一階段,訓練目標是通過MIM增強對視覺幾何和結構意識的視覺感知能力。我們利用EVA02-CLIP-E作為教師模型,學生模型則按照表1中定義的架構隨機初始化。在訓練過程中,隨機遮罩75%的圖像塊以及相應的RoPE位置編碼,並使用教師產生的CLIP特徵作為重建目標。這一過程通過學生和教師輸出的餘弦相似性損失進行優化。作者發現,學生和教師模型之間在視覺位置嵌入上的差異並不會損害性能,因為教師使用可學習的位置嵌入,而學生使用2D RoPE。相反,2D RoPE賦予學生強大的原生動態分辨率識別能力。隨著我們擴大這一MIM過程的規模,VLM在圖表/文檔理解和OCR方面的能力得到了顯著提升。

在對比學習階段,視覺編碼器使用我們經過MIM訓練的學生模型進行初始化,而文本編碼器則使用EVA-02-CLIP-E中的文本編碼器進行初始化。對於每一對給定的圖像-文本對,我們使用注意力池化將視覺編碼器提取的塊特徵pooling成一個1280d的圖像embedding。然後通過聯合優化SigLIP Loss和SuperClass Loss來實現圖像和文本嵌入之間的對齊。

最後一個全模態預訓練階段,採用了MiCo框架,從視頻數據中構建包含視頻幀、音頻、視覺字幕和音頻字幕的對齊元組。ViT對視頻幀和音頻進行編碼,而一個單獨的文本編碼器處理字幕。通過對這些嵌入進行對齊,ViT學習統一的全模態表示。儘管這一階段僅消耗了整個ViT預訓練過程中訓練數據token量的4.8%,但它顯著提高了ViT在圖像和視頻理解任務上的性能。

在對視頻輸入的處理中,Seed1.5-VL引入了動態採樣分辨率,來高效處理不同長度和信息密度的視頻,最大預算為每段視頻81920個token,可以靈活使用更高分辨率處理較少的幀,或者使用更低分辨率以容納更長視頻中的更多幀。

預訓練數據工程

我們都知道,除了Infra之外,大模型算法的核心在於“數據工程”,雖然常被貶低為“洗數據”,被精通公式推導和電路圖繪製的學者們看不起。但不可否認的是,數據工程直接決定了模型的能力上下限。讓我們先看一下Seed1.5-VL在預訓練階段是如何做數據工程的。

Seed1.5-VL的預訓練語料庫用到了3萬億(3T)token數,要知道,頂尖的大語言模型的預訓練一般也才10-30T的token數目,對於下游多模態預訓練而言,3T的token數非常的驚人。

通用任務的圖像文本對,用於注入視覺知識,通過對知識長尾分佈進行一定的平衡,確保稀有視覺概念有足夠的訓練迭代。這個重平衡策略在預訓練中非常關鍵。

為驗證這一觀察,研究者使用Biotrove數據集進行了沙盒實驗:

Random-46M:從訓練集中隨機選擇4600萬樣本。

Max1k-46M:選擇4600萬樣本,每個物種最多1000個樣本,確保包含稀有物種。

Max100-15M:選擇1500萬樣本,每個物種最多100個樣本,增加稀有物種的相對曝光。

圖片

實驗結果表明,Random-46M配置在稀有物種識別上表現不佳。相比之下,限制常見物種的最大樣本數(Max1k-46M)顯著提高了稀有物種的性能。進一步限制常見物種的代表性(Max100-15M)增強了對稀有物種的記憶,但對常見物種的識別產生了不利影響。因此,有效地獲取視覺知識需要在保持常見視覺概念的多樣化示例的同時,確保稀有視覺概念有足夠的訓練迭代。

OCR數據。OCR任務已經成為了多模態大模型的兵家必爭之地,能極大擴展MLLM的應用場景。在訓練Seed1.5-VL時採用了大量的OCR標註數據和合成數據。

圖片

作者構建了一個包含超過10億樣本的OCR訓練數據集,涵蓋文檔、場景文本、表格、圖表和流程圖,如上圖所示。

Grounding(定位)和計數任務數據。主要利用了三種數據類型:邊界框標註、點標註和計數數據。

3D空間稀疏理解類數據。為了使模型能夠從單張圖像中理解三維空間,構建了針對以下三個任務的數據:相對深度排序、絕對深度估計和三維定位。

視頻數據。包含通用視頻理解數據、時間定位和檢索數據、視頻流數據(交錯問答和實時評論等)。

STEM數據(科學、技術、工程、數學)。收集了320萬高質量教育定位樣本,涵蓋數學、物理、化學、生物等300個類別。合成1000萬張不同格式的結構化表格,生成450萬張化學結構圖,製作150萬張合成坐標系圖(包括函數圖和位置圖)。特定子集K12描述數據:10萬張教育圖像的人工標註描述,100萬對視覺問答(VQA)對,100萬張機器生成描述,數十萬張幾何描述。處理了超過1億的K12水平練習題。補充了數千萬中國成人教育問題和數百萬圖像相關問題。採用混合採集策略:人工標註、自動化合成、嚴格質量控制。確保多模態覆蓋(文本、視覺、圖表),涵蓋數學、物理、化學等核心STEM領域。

GUI數據。也是MLLM最常見的應用場景,即GUI操控。為了支持強大的GUI感知、基礎和推理,作者製作了一個跨web、應用程序和桌面環境的大規模數據集。每個截圖都與通過自動解析和人工輔助探索收集的結構化元數據元素類型、邊界框、文本和深度配對。

預訓練配方

模型包含三個主要模塊:視覺編碼器、MLP適配器和語言模型。在視覺語言模型(VLM)預訓練階段之前,視覺編碼器會進行獨立訓練。語言模型初始化自一個內部預訓練模型,該模型擁有大約200億活躍參數。該語言模型採用僅解碼器的MoE架構,並已在包含數萬億高質量純文本標記的大型語料庫上進行訓練。我們的VLM預訓練方法分為三個不同的階段:

階段0:通過僅訓練MLP適配器,同時凍結視覺編碼器和語言模型,來使視覺編碼器與語言模型對齊。跳過這一階段會導致損失略高,性能稍差。

階段1:所有模型參數均可訓練。這一階段專注於知識積累,通過在包含3萬億標記的多模態語料庫上進行訓練,掌握模型的視覺定位和OCR能力,該語料庫主要由標題、交錯的圖像-文本、視覺定位和OCR數據組成。經實證發現,添加少量純文本標記(例如5%)可以保持模型的語言能力。此外,添加少量指令跟隨數據可獲得更可靠的評估結果,從而將預訓練開發與後訓練分開。

階段2:我們在不同任務之間創建更平衡的數據混合,並添加來自新領域(如視頻理解、編程和3D空間理解)的數據。此外,我們將序列長度從32,768增加到131,072,以便更好地適應視頻中的長依賴關係和複雜推理問題的建模。與階段1一樣,所有模型參數均可訓練。

後訓練

後訓練階段通過監督微調(Supervised Fine-tuning, SFT)和強化學習(Reinforcement Learning, RL)的結合,為Seed1.5-VL賦予了強大的指令跟隨和推理能力。這一過程從一個在冷啟動數據上訓練的SFT模型開始。一個關鍵組成部分是數據管道,它持續收集困難且多樣化的提示,這些提示通過拒絕採樣改善SFT數據並輸入到RL中。後訓練以迭代的方式進行:SFT模型通過提煉RL模型在多樣化提示上的學習成果而逐步得到增強。這種迭代改進持續進行,直到提示池耗盡且性能指標收斂為止。最終,這一過程產生了Seed1.5-VL,它既能生成快速簡潔的回复,也能生成具有長鏈推理(Long Chain-of-Thought, LongCoT)的深入回答。

圖片

監督微調(SFT)階段是為Seed1.5-VL在強化學習之前配備基礎的指令跟隨和推理能力的关键。SFT數據集包含兩個主要部分,分别針對不同的能力。第一部分是通用指令數據,訓練Seed1.5-VL處理多樣化和複雜的指令,重點是生成簡潔準確的回复。第二部分是長鏈推理(LongCoT)數據,專注於生成詳細、逐步的推論過程。這些數據通過提示工程和拒絕採樣生成。

為了進一步提升模型的性能,我們還納入了額外的3萬條高質量數據樣本,這些樣本來自研究社區。這些樣本是從我們精心收集的包含約150萬條條目的開源庫中篩選出來的。最初,我們使用專有的圖像-文本嵌入模型將圖像-文本對聚類到特定任務的類別中。這種聚類使得數據集能夠在各種任務中保持高度的多樣性。隨後,我們利用與人類偏好對齊的訓練有素的SFT模型,在這個採樣子集上進行多次模擬。生成的回复通過LLM作為評判進行過濾,以原始真實值為參考,判斷模型生成的回复的正確性。在此基礎上,我們進一步採用獎勵模型從保留的結果中篩選出最符合人類偏好的回复,從而獲得最終的拒絕採樣微調數據。最終,我們將SFT數據中的開源數據量從150萬壓縮到大約3萬條高質量數據。其餘的開源數據則在預訓練階段提前使用。

對於RLHF階段,為訓練獎勵模型,收集了人類標註的偏好數據,使用5級評分系統比較候選模型響應,並使用偏好強度細化合成數據。

我們的在線強化學習實現採用PPO算法變體,獎勵信號來自獎勵模型對生成答案token的概率。在PPO訓練期間,獎勵模型參考真實答案或SFT模型的最佳N個答案。

評測

Seed-VIT是一個體積小且性能優異的視覺編碼器。

圖片

Seed1.5-VL最終取得了非常多VQA榜單的SOTA。

圖片

最後插播一個廣告,我的朋友「包包演算法筆記」最新出書啦!在當今浮躁的風氣下,本書算是為數不多的良作,相信一定能幫助到有意從事大模型行業的求職者和愛好者們!(本號櫥窗也可購買!)

點擊👇關注 「思源數據科學」

👇點個「讚」和「在看」吧

主標籤:人工智慧

次標籤:多模態模型視覺語言模型機器學習大型語言模型


上一篇:API 設計的「Go境界」:Go 團隊設計 MCP SDK 過程中的取捨與思考

下一篇:突發!美國新法案,10年內禁止監管AI

分享短網址