近期,谷歌在 LMArena 上匿名上線的「nano-banana」(真身 Gemini 2.5 Flash Image)以 1362 分的斷層優勢登上圖像編輯榜首,網友驚呼「只需一句自然語言就能把模特兒修圖成穿香蕉裝」。
谷歌 AI Studio 負責人最近還採訪了這個專案背後的團隊,透露技術細節有一條提到該模型的核心又是在於原生多模態。
那麼,一個更底層的問題浮出水面:當 MLLM 聽到「把背景換成藍天白雲」時,它到底在第幾層才真正「看懂」這張圖,又在第幾層決定「怎麼換」?
答案就藏在最新發表的論文《How Multimodal LLMs Solve Image Tasks》裡。
論文提出了一套輕量級線性探針框架,用三種精心設計的提示詞(prompt)變體,徹底拆解了 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 的內部流程,發現了驚人的「四階段」通用結構,並指出:更換分詞器(tokenizer)、增加數據、更換預訓練語料都無法撼動這一結構,真正決定「哪層做什麼」的是底層 LLM 架構本身。
方法:用三種提示詞變體給每層「體檢」
變體類型:詞彙(Lexical),改動範例:Does this image → Does this picture,探測目的:找出視覺-文本對齊發生的層。
變體類型:語義否定(Semantic Negation),改動範例:animal → plane(答案 yes→no),探測目的:找出語義決策開始固化的層。
變體類型:輸出格式(Output Format),改動範例:yes/no → 1/0(答案語義不變),探測目的:把「決策」與「輸出格式」解耦。
圖2:在同一層上訓練線性探針;推論時固定探針,僅更換提示詞看準確率變化。
2.1 實驗設置
數據:ImageNet 120 種細粒度犬種(避免任務過於簡單)。
錨定問題:Does this image show an animal? The answer must be always yes or no.
每層獨立訓練一個線性分類器,預測犬種標籤;用準確率下降幅度衡量該層對提示詞擾動的敏感度。
3. 四階段流水線一次看明白
3.1 LLaVA-1.5 的典型四階段
第 1-4 層:視覺接地(Visual Grounding),更換提示詞幾乎不掉點 → 純視覺編碼。
第 5-13 層:詞彙整合(Lexical Integration),更換「image→picture」立刻下降 40% → 圖文開始融合。
第 12-15 層:語義推理(Semantic Reasoning),語義否定(Semantic Negation)掉點嚴重,輸出格式(Output Format)仍高 → 決策已固化。
第 16 層以上:答案解碼(Answer Decoding),輸出格式(Output Format)掉點 → 開始準備輸出 token。
3.2 把「決策」和「格式」解耦
第 12-15 層:兩種格式準確率都高 → 這裡儲存的是語義答案本身。
第 16 層以後:格式不同導致準確率下降 → 這裡開始關心如何說而不是說什麼。
4. 什麼決定流水線?架構 > 數據 > 分詞器
將 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 拉來對比,控制變量看「誰動了我的流水線」。
4.1 分詞器、指令數據、預訓練語料:影響微乎其微
→ 曲線幾乎重合,四階段結構穩定。
4.2 更換底層 LLM:階段不變,層數搬家
更換 Qwen → 更少層做視覺錨定,更多層做語義推論。
階段:接地(Grounding),LLaVA-1.5:1-4,Qwen2-VL:1(更短)。
階段:推論(Reasoning),LLaVA-1.5:12-15,Qwen2-VL:10-20(更長)。
階段:解碼(Decoding),LLaVA-1.5:16+,Qwen2-VL:21-28。
結論:底層 LLM 的架構差異決定了各階段「用幾層」,但四階段邏輯不變。
5. 結論
通用四階段:接地(Grounding)→ 整合(Integration)→ 推論(Reasoning)→ 解碼(Decoding)。
架構決定深度:更換 LLaMA→Qwen 就像把同一條流水線「拉伸」或「壓縮」。
輕量探針:無需梯度回傳、無需改動模型,即可橫向比較不同 MLLM。
未來工作將把這套探針搬到 BLIP-2、Chameleon 等非 LLaVA 架構,驗證四階段是否仍是「宇宙法則」。
想調整 MLLM?先想清楚你的底層 LLM 在第幾層「開始動腦」,再談數據與分詞器!
https://arxiv.org/pdf/2508.20279 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding