谷歌 nano-banana 模型封神,MLLM 如何解決圖像任務?三個維度深度剖析

近期,谷歌在 LMArena 上匿名上線的「nano-banana」(真身 Gemini 2.5 Flash Image)以 1362 分的斷層優勢登上圖像編輯榜首,網友驚呼「只需一句自然語言就能把模特兒修圖成穿香蕉裝」。圖片

谷歌 AI Studio 負責人最近還採訪了這個專案背後的團隊,透露技術細節有一條提到該模型的核心又是在於原生多模態。圖片

那麼,一個更底層的問題浮出水面:當 MLLM 聽到「把背景換成藍天白雲」時,它到底在第幾層才真正「看懂」這張圖,又在第幾層決定「怎麼換」?

答案就藏在最新發表的論文《How Multimodal LLMs Solve Image Tasks》裡。圖片

論文提出了一套輕量級線性探針框架,用三種精心設計的提示詞(prompt)變體,徹底拆解了 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 的內部流程,發現了驚人的「四階段」通用結構,並指出:更換分詞器(tokenizer)、增加數據、更換預訓練語料都無法撼動這一結構,真正決定「哪層做什麼」的是底層 LLM 架構本身。

方法:用三種提示詞變體給每層「體檢」

變體類型:詞彙(Lexical),改動範例:Does this image → Does this picture,探測目的:找出視覺-文本對齊發生的層。

變體類型:語義否定(Semantic Negation),改動範例:animal → plane(答案 yes→no),探測目的:找出語義決策開始固化的層。

變體類型:輸出格式(Output Format),改動範例:yes/no → 1/0(答案語義不變),探測目的:把「決策」與「輸出格式」解耦。

圖2 探針框架示意

圖2:在同一層上訓練線性探針;推論時固定探針,僅更換提示詞看準確率變化。

2.1 實驗設置

數據:ImageNet 120 種細粒度犬種(避免任務過於簡單)。

錨定問題:Does this image show an animal? The answer must be always yes or no.

每層獨立訓練一個線性分類器,預測犬種標籤;用準確率下降幅度衡量該層對提示詞擾動的敏感度。

3. 四階段流水線一次看明白

3.1 LLaVA-1.5 的典型四階段

圖3 左:Lexical 右:Semantic Negation 的逐層準確率

第 1-4 層:視覺接地(Visual Grounding),更換提示詞幾乎不掉點 → 純視覺編碼。

第 5-13 層:詞彙整合(Lexical Integration),更換「image→picture」立刻下降 40% → 圖文開始融合。

第 12-15 層:語義推理(Semantic Reasoning),語義否定(Semantic Negation)掉點嚴重,輸出格式(Output Format)仍高 → 決策已固化。

第 16 層以上:答案解碼(Answer Decoding),輸出格式(Output Format)掉點 → 開始準備輸出 token。

3.2 把「決策」和「格式」解耦

圖4 僅改輸出格式 yes/no→1/0

第 12-15 層:兩種格式準確率都高 → 這裡儲存的是語義答案本身。

第 16 層以後:格式不同導致準確率下降 → 這裡開始關心如何說而不是說什麼。

4. 什麼決定流水線?架構 > 數據 > 分詞器

將 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 拉來對比,控制變量看「誰動了我的流水線」。

4.1 分詞器、指令數據、預訓練語料:影響微乎其微

圖5(a) LLaVA-Next vs LLaVA-1.5

→ 曲線幾乎重合,四階段結構穩定。

4.2 更換底層 LLM:階段不變,層數搬家

圖5(b) Qwen2-VL vs LLaVA-1.5

更換 Qwen → 更少層做視覺錨定,更多層做語義推論。

階段:接地(Grounding),LLaVA-1.5:1-4,Qwen2-VL:1(更短)。

階段:推論(Reasoning),LLaVA-1.5:12-15,Qwen2-VL:10-20(更長)。

階段:解碼(Decoding),LLaVA-1.5:16+,Qwen2-VL:21-28。

Reasoning 高峰從 Layer 10 延續到 Layer 20,Decoding 推遲到 21-28,直觀體現“層數搬家”現象。

結論:底層 LLM 的架構差異決定了各階段「用幾層」,但四階段邏輯不變。

5. 結論

通用四階段:接地(Grounding)→ 整合(Integration)→ 推論(Reasoning)→ 解碼(Decoding)。

架構決定深度:更換 LLaMA→Qwen 就像把同一條流水線「拉伸」或「壓縮」。

輕量探針:無需梯度回傳、無需改動模型,即可橫向比較不同 MLLM。

未來工作將把這套探針搬到 BLIP-2、Chameleon 等非 LLaVA 架構,驗證四階段是否仍是「宇宙法則」。

想調整 MLLM?先想清楚你的底層 LLM 在第幾層「開始動腦」,再談數據與分詞器!

https://arxiv.org/pdf/2508.20279 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

主標籤:多模態大型語言模型

次標籤:圖像任務視覺接地機器學習架構谷歌Gemini


上一篇:DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智慧版本,還是多模態

下一篇:Anthropic 承認模型「降智」卻仍放任其偷懶?Claude Code 使用者信任正崩塌

分享短網址