最近、GoogleがLMArenaに匿名でリリースした「nano-banana」(正体はGemini 2.5 Flash Image)が、1362ポイントという圧倒的な差で画像編集ランキングのトップに立ちました。ネットユーザーからは「自然言語でモデルをバナナの服に着せ替えることができる」と驚きの声が上がっています。
Google AI Studioの責任者は最近、このプロジェクトの背景にあるチームにインタビューし、技術詳細の一つとして「このモデルの核はネイティブなマルチモーダル性にある」と明かしました。
では、より根本的な問題が浮上します。「MLLMが『背景を青空と白い雲に変えて』と聞いたとき、一体何層目でこの画像を真に『理解』し、何層目で『どのように変えるか』を決定しているのか?」その答えは、最近公開された論文「How Multimodal LLMs Solve Image Tasks」に隠されています。
この論文は、軽量な線形プローブフレームワークを提案し、3つの工夫されたプロンプトバリアントを用いて、LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VLの内部プロセスを徹底的に分析しました。その結果、驚くべき「4段階」の汎用構造を発見し、以下の点を指摘しています。トークナイザの変更、データ追加、事前学習コーパスの変更ではこの構造を揺るがすことはできず、「どの層で何を行うか」を真に決定するのは、基盤となるLLMアーキテクチャそのものであると。
方法:3種類のプロンプトバリアントで各層を「検査」する
バリアントタイプ:語彙(Lexical)、変更例:Does this image → Does this picture、検出目的:視覚-テキストのアラインメントが発生する層を特定する。
バリアントタイプ:意味的否定(Semantic Negation)、変更例:animal → plane(回答 yes→no)、検出目的:意味的決定が固定化され始める層を特定する。
バリアントタイプ:出力形式(Output Format)、変更例:yes/no → 1/0(回答の意味は不変)、検出目的:「決定」と「出力形式」を分離する。
図2:同じ層で線形プローブを訓練する。推論時にはプローブを固定し、プロンプトのみを変更して精度変化を観察する。
2.1 実験設定
データ:ImageNet 120種類の細かい犬種(タスクが簡単すぎないようにするため)。
アンカー質問:Does this image show an animal? The answer must be always yes or no.
各層で独立して線形分類器を訓練し、犬種のラベルを予測する。プロンプト摂動に対するその層の感度を精度低下の度合いで測定する。
3. 4段階のパイプラインを一目で理解する
3.1 LLaVA-1.5の典型的な4段階
レイヤー 1-4:視覚的グラウンディング(Visual Grounding)、プロンプトを変更してもほとんど精度が低下しない → 純粋な視覚エンコーディング。
レイヤー 5-13:語彙統合(Lexical Integration)、「image→picture」の変更で直ちに40%低下 → 画像-テキストの融合が始まる。
レイヤー 12-15:意味的推論(Semantic Reasoning)、意味的否定(Semantic Negation)で大幅な低下、出力形式(Output Format)は依然として高い → 決定が固定化されている。
レイヤー 16+:回答デコーディング(Answer Decoding)、出力形式(Output Format)で低下 → 出力トークンの準備を開始する。
3.2 「決定」と「形式」を分離する
レイヤー 12-15:両方の形式で精度が高い → ここに意味的な回答そのものが保存されている。
レイヤー 16以降:形式の違いが精度低下につながる → ここでは「何を言うか」よりも「どのように言うか」に関心が移る。
4. パイプラインを決定するのは何か?アーキテクチャ > データ > トークナイザ
LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VLを比較し、制御変数を用いて「誰が私のパイプラインを動かしたのか」を検証する。
4.1 トークナイザ、指示データ、事前学習コーパス:影響はごくわずか
→ 曲線はほぼ重なり、4段階構造は安定していることを示す。
4.2 基盤LLMの変更:段階は不変、層数が移動
Qwenに変更 → 視覚的グラウンディングに使う層が減り、意味的推論に使う層が増える。
段階:グラウンディング(Grounding)、LLaVA-1.5:1-4、Qwen2-VL:1(より短い)。
段階:推論(Reasoning)、LLaVA-1.5:12-15、Qwen2-VL:10-20(より長い)。
段階:デコーディング(Decoding)、LLaVA-1.5:16+、Qwen2-VL:21-28。
結論:基盤LLMのアーキテクチャの違いが各段階で「何層使うか」を決定するが、4段階のロジックは変わらない。
5. 結論
汎用的な4段階:グラウンディング(Grounding)→ 統合(Integration)→ 推論(Reasoning)→ デコーディング(Decoding)。
アーキテクチャが深さを決定:LLaMA→Qwenの変更は、同じパイプラインを「引き伸ばす」または「圧縮する」ようなもの。
軽量プローブ:勾配逆伝播やモデル変更なしで、異なるMLLMを横断的に比較できる。
今後の研究では、このプローブセットをBLIP-2、Chameleonなどの非LLaVAアーキテクチャにも適用し、4段階が「宇宙の法則」であるかどうかを検証する。
MLLMを調整したい?まず、基盤LLMが何層目で「思考を開始するか」を明確にし、それからデータやトークナイザについて議論しよう!
https://arxiv.org/pdf/2508.20279 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding