谷歌 nano-banana 模型封神，MLLM 如何解決圖像任務？三個維度深度剖析

近期，谷歌在 LMArena 上匿名上線的「nano-banana」（真身 Gemini 2.5 Flash Image）以 1362 分的斷層優勢登上圖像編輯榜首，網友驚呼「只需一句自然語言就能把模特兒修圖成穿香蕉裝」。

谷歌 AI Studio 負責人最近還採訪了這個專案背後的團隊，透露技術細節有一條提到該模型的核心又是在於原生多模態。

那麼，一個更底層的問題浮出水面：當 MLLM 聽到「把背景換成藍天白雲」時，它到底在第幾層才真正「看懂」這張圖，又在第幾層決定「怎麼換」？

答案就藏在最新發表的論文《How Multimodal LLMs Solve Image Tasks》裡。

論文提出了一套輕量級線性探針框架，用三種精心設計的提示詞（prompt）變體，徹底拆解了 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 的內部流程，發現了驚人的「四階段」通用結構，並指出：更換分詞器（tokenizer）、增加數據、更換預訓練語料都無法撼動這一結構，真正決定「哪層做什麼」的是底層 LLM 架構本身。

方法：用三種提示詞變體給每層「體檢」

變體類型：詞彙（Lexical），改動範例：Does this image → Does this picture，探測目的：找出視覺-文本對齊發生的層。

變體類型：語義否定（Semantic Negation），改動範例：animal → plane（答案 yes→no），探測目的：找出語義決策開始固化的層。

變體類型：輸出格式（Output Format），改動範例：yes/no → 1/0（答案語義不變），探測目的：把「決策」與「輸出格式」解耦。

圖2：在同一層上訓練線性探針；推論時固定探針，僅更換提示詞看準確率變化。

2.1 實驗設置

數據：ImageNet 120 種細粒度犬種（避免任務過於簡單）。

錨定問題：Does this image show an animal? The answer must be always yes or no.

每層獨立訓練一個線性分類器，預測犬種標籤；用準確率下降幅度衡量該層對提示詞擾動的敏感度。

3. 四階段流水線一次看明白

3.1 LLaVA-1.5 的典型四階段

第 1-4 層：視覺接地（Visual Grounding），更換提示詞幾乎不掉點 → 純視覺編碼。

第 5-13 層：詞彙整合（Lexical Integration），更換「image→picture」立刻下降 40% → 圖文開始融合。

第 12-15 層：語義推理（Semantic Reasoning），語義否定（Semantic Negation）掉點嚴重，輸出格式（Output Format）仍高 → 決策已固化。

第 16 層以上：答案解碼（Answer Decoding），輸出格式（Output Format）掉點 → 開始準備輸出 token。

3.2 把「決策」和「格式」解耦

第 12-15 層：兩種格式準確率都高 → 這裡儲存的是語義答案本身。

第 16 層以後：格式不同導致準確率下降 → 這裡開始關心如何說而不是說什麼。

4. 什麼決定流水線？架構 > 數據 > 分詞器

將 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 拉來對比，控制變量看「誰動了我的流水線」。

4.1 分詞器、指令數據、預訓練語料：影響微乎其微

→ 曲線幾乎重合，四階段結構穩定。

4.2 更換底層 LLM：階段不變，層數搬家

更換 Qwen → 更少層做視覺錨定，更多層做語義推論。

階段：接地（Grounding），LLaVA-1.5：1-4，Qwen2-VL：1（更短）。

階段：推論（Reasoning），LLaVA-1.5：12-15，Qwen2-VL：10-20（更長）。

階段：解碼（Decoding），LLaVA-1.5：16+，Qwen2-VL：21-28。

Reasoning 高峰從 Layer 10 延續到 Layer 20，Decoding 推遲到 21-28，直觀體現“層數搬家”現象。

結論：底層 LLM 的架構差異決定了各階段「用幾層」，但四階段邏輯不變。

5. 結論

通用四階段：接地（Grounding）→ 整合（Integration）→ 推論（Reasoning）→ 解碼（Decoding）。

架構決定深度：更換 LLaMA→Qwen 就像把同一條流水線「拉伸」或「壓縮」。

輕量探針：無需梯度回傳、無需改動模型，即可橫向比較不同 MLLM。

未來工作將把這套探針搬到 BLIP-2、Chameleon 等非 LLaVA 架構，驗證四階段是否仍是「宇宙法則」。

想調整 MLLM？先想清楚你的底層 LLM 在第幾層「開始動腦」，再談數據與分詞器！

https://arxiv.org/pdf/2508.20279 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

谷歌 nano-banana 模型封神，MLLM 如何解決圖像任務？三個維度深度剖析

分享短網址