機器之心報道
編輯:Panda、+0
近年來,LLM 及其多模態擴展(MLLM)在多種任務上的推論能力不斷提升。然而,現有 MLLM 主要仰賴文字作為表達與建構推論過程的媒介,即便是在處理視覺資訊時也是如此。
常見的 MLLM 結構。
這種模式要求模型首先將視覺資訊「翻譯」或「對應」為文字描述或內部的文本化標記(token),然後再利用大型語言模型的文字推論能力進行處理。
這個轉換過程不可避免地可能導致視覺資訊中固有的豐富細節、空間關係和動態特徵的遺失或削弱,形成了所謂的「模態鴻溝(modality gap)」。這種鴻溝不僅限制了模型對視覺世界的精細感知,也影響了其在複雜視覺場景中進行有效規劃的能力。
例如,模型雖然能夠辨識圖像中的物體並描述它們之間一些相對簡單的空間關係,但在追求極致的定位精準度,或需要深入理解和預測物體間高度複雜、動態或隱含的互動邏輯(而非僅僅辨識表面現象)時,其表現仍可能因視覺資訊在文本化過程中的細節損失而受到限制。
來自劍橋、倫敦大學學院、Google 的研究團隊認為:語言不一定始終是進行推論最自然或最有效的模態,尤其是在涉及空間與幾何資訊的任務場景中。
基於此動機,研究團隊提出了一種全新的推論與規劃典範 —— 視覺規劃(Visual Planning)。該典範完全基於視覺表示進行規劃,完全獨立於文字模態。
論文標題:Visual Planning: Let’s Think Only with Images
論文地址:https://arxiv.org/pdf/2505.11409
程式碼倉庫:https://github.com/yix8/VisualPlanning
在這一框架下,規劃透過一系列圖像按步驟編碼視覺領域內的推論過程,類似於人類透過草圖或想像視覺圖景來計畫未來行為的方式。
推論典範的對比。傳統方法(上方與中間兩行)傾向於生成冗長且不準確的文字規劃,而視覺規劃典範(下方一行)則直接預測下一步的視覺狀態,形成完全基於圖像的狀態軌跡,過程無需語言中介。
為支持該方法,研究團隊提出了一個創新性的強化學習框架 —— 基於強化學習的視覺規劃(Visual Planning via Reinforcement Learning, VPRL)。該框架以 GRPO(群體相對策略優化)為核心優化方法,用於在訓練後提升大規模視覺模型的規劃能力。
在多個典型的視覺導航任務中,包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR,該方法實現了顯著的效能提升。實驗結果表明,相較於在純文字空間內進行推論的其他所有規劃變體,研究團隊提出的純視覺規劃典範在效果上具備更強優勢。
以下是動態範例:
冰湖(FrozenLake):這是一個具有隨機性的網格世界(gridworld)環境,智能體需從指定起點出發,安全到達目標位置,期間必須避免掉入「冰洞」。
迷宮 Maze:智能體獲得一個初始圖像,該圖展示了迷宮的布局。其任務是在迷宮中從起點(綠色標記)出發,最終到達終點(紅色旗幟所在位置)。
微行為(MiniBehaviour):智能體首先需要從起點移動至印表機所在的位置並「拾起」它,之後應將印表機運送至桌子處並「放下」。
這項研究不僅證明視覺規劃是一種可行的替代方案,更揭示了它在需要直覺式圖像推論任務中的巨大潛力,為圖像感知與推論領域開闢了嶄新方向。
強化學習驅動的視覺規劃
視覺規劃典範
以往的大多數視覺推論基準任務,通常透過將視覺資訊對應到文字領域來求解,例如轉換為物體名稱、屬性或關係等標註標籤,在此基礎上進行幾步語言推論。
然而,一旦視覺內容被轉換為文字表示,該任務便退化為純語言推論問題,此時語言模型即可完成推論,而無需在過程中再引入視覺模態的資訊。
研究團隊提出的視覺規劃典範本質上與上述方法不同。它在純視覺模態下進行規劃。研究團隊形式化地定義視覺規劃為:在給定初始圖像 v₀ 的前提下,生成中間圖像序列 T = (ˆv₁, ..., ˆvₙ),其中每個 ˆvᵢ 表示一個視覺狀態,共同構成一個視覺規劃軌跡。具體而言,記 π_θ 為一個參數化的生成視覺模型。該視覺規劃軌跡以自迴歸方式生成,每一個中間視覺狀態 ˆvᵢ 都在給定初始狀態和此前生成狀態的條件下進行取樣:
大規模視覺模型中的強化學習
強化學習(RL)在優化自迴歸模型方面表現出顯著優勢,其透過序列級獎勵訊號進行訓練,突破了傳統標記(token)級監督訊號的限制。在自迴歸圖像生成任務中,圖像被表示為視覺標記的序列。
受 RL 在語言推論任務中成功應用的啟發,研究團隊引入了一個基於 RL 的訓練框架,用於支持大模型下的視覺規劃,並採用了 GRPO 方法。該方法利用視覺狀態之間的轉換資訊來計算獎勵,同時驗證生成策略是否滿足環境約束條件。
為訓練一種能生成有效動作、並在 RL 階段保持探索多樣性的策略模型,研究團隊提出了一種創新性的兩階段強化學習框架:
Stage 1:策略初始化。在該階段,研究團隊採用監督學習,透過在環境中的隨機漫步(random walk)生成的軌跡來初始化視覺生成模型 π_θ。目標是生成有效的視覺狀態序列,並在「模擬」環境中保持充足的探索性。在訓練過程中,每條軌跡由一個視覺狀態序列 (v₀, ..., vₙ) 構成。對每條軌跡而言,研究團隊提取 n−1 對圖像樣本 (v≤ᵢ, vᵢ₊₁),其中 v≤ᵢ 表示前綴序列 (v₀, ..., vᵢ)。隨後,在給定輸入前綴的情況下,模型會接觸到來自 K 條有效軌跡的下一狀態候選集 {vᵢ₊₁^(j)}_{j=1}^K。這些候選狀態共享相同的前綴,為防止模型過度擬合某一特定轉換,同時鼓勵生成過程的隨機性,研究團隊在每個訓練步驟中隨機取樣一個候選狀態 vᵢ₊₁^(ℓ) 作為監督目標,透過最小化視覺微調損失函數(VPFT)來優化模型:
所提 VPRL 框架概覽。圖中展示了該框架在視覺導航任務中的應用,利用自迴歸式大規模視覺模型進行圖像生成。其中使用了 GRPO 對視覺策略模型進行訓練,並引入進度獎勵函數以鼓勵推進性的動作並懲罰非法行為,從而實現與目標一致的視覺規劃。
總體而言,該階段主要作為接下來的強化學習階段的熱啟動過程,旨在提升生成圖像的連貫性和整體規劃品質。
Stage 2:面向視覺規劃的強化學習。在第一階段初始化後,模型擁有較強的探索能力,這對強化學習至關重要,可確保模型覆蓋多種狀態轉移路徑,避免陷入次優策略。在第二階段中,模型透過模擬未來狀態(即潛在動作的後果),依據生成結果獲得獎勵回饋,從而逐步引導學習出有效的視覺規劃策略。
具體而言,給定目前輸入前綴 v≤ᵢ,舊版本模型 π_θ^old 會取樣出 G 個候選中間狀態 {ˆvᵢ₊₁^(1), ..., ˆvᵢ₊₁^(G)}。每個候選狀態代表了時間步 i 上智能體採取某一行動 a^(k) 後,模擬產生的下一視覺狀態。研究團隊使用基於規則的解析函數將狀態對 (vᵢ, ˆvᵢ₊₁^(k)) 對應為離散動作,以便進行結構化解釋。
隨後,研究團隊設計了一個複合獎勵函數 r (vᵢ, ˆvᵢ₊₁^(k)) 來對每個候選狀態進行評分,該獎勵衡量候選狀態是否代表了對目標狀態的有效推進(即是否有用)。
不同於傳統強化學習中仰賴學習一個價值函數評估器(critic),GRPO 透過候選組內的相對比較來計算優勢值,從而提供易於解釋、計算更高效的訓練訊號。此時每個候選的相對優勢 A^(k) 的計算方式為:
為引導模型產生更優的候選回應,並強化高優勢行為的傾向,研究團隊根據以下目標函數更新策略:
其中,D 指代前綴分佈,ρ^(k) = π_θ(ˆvᵢ₊₁^(k) | v≤ᵢ) / π_θ^old (ˆvᵢ₊₁^(k) | v≤ᵢ) 表示重要性取樣比值。
獎勵設計。與離散操作或文字標記(token)不同,視覺輸出往往是高維稀疏資訊,難以被直接分解為可解釋的單元。在研究團隊的視覺規劃框架下,核心挑戰在於如何判斷一個生成的視覺狀態能否準確表達對應的規劃動作。因此,獎勵設計聚焦於在考慮環境約束下,對朝向目標狀態的推進進行評估。
為解釋由狀態 vᵢ 到候選狀態 ˆvᵢ₊ₜ^(k) 所隱含的動作計畫,研究團隊定義一個狀態-動作解析函數 P: V × V → A ∪ E,其中 A 表示有效動作集合,E 表示非法狀態轉移集合(例如違反物理約束的動作)。
該過程可借助獨立的圖像分割組件或基於規則的腳本完成,從像素層級資料中解析出可解釋的動作單元。
一旦動作被辨識,研究團隊引入「進度圖」(progress map)D (v) ∈ ℕ,表示從某一可視狀態 v 到達目標狀態所需的剩餘步驟數或努力度。透過比較目前狀態與生成狀態在進度圖上的相對變化,研究團隊將動作集合 A ∪ E 劃分為三類:
據此,研究團隊提出進度獎勵函數 r (vᵢ, ˆvᵢ₊₁^(k)):
r =αₒₚₜ, 若為推進有效動作(optimal)r =αₙₒₚₜ, 若為無推進的動作(non-optimal) r =αᵢₙᵥ, 若為非法動作(invalid)
在實驗中,研究團隊設定 αₒₚₜ = 1,αₙₒₚₜ = 0,αᵢₙᵥ = −5,從而鼓勵推進行為,懲罰不可行的狀態轉移。
系統變體
除提出的 VPRL 主幹框架外,為全面評估監督方式(語言 vs. 圖像)與優化方法(監督微調 vs. 強化學習)對效能的影響,研究團隊提出了若干系統變體作為對比基準:
視覺微調規劃(VPFT)。研究團隊提出「視覺微調規劃」(Visual Planning via Fine-Tuning, VPFT)作為本框架的簡化版本,其訓練結構與第 2.2 節中的階段一一致,但使用最佳規劃軌跡代替隨機軌跡。對於每個環境,研究團隊取樣一條最小步驟的最佳軌跡 (v₀^opt, v₁^opt, ..., vₙ^opt),該軌跡從初始狀態 v₀^opt = v₀ 通向目標狀態。在每一步,模型根據目前前綴 v≤ᵢ^opt 學習預測下一個狀態 vᵢ₊₁^opt。訓練目標與公式(2)相同,以最佳軌跡作為監督訊號。
基於語言的監督微調(SFT)。在該對比方法中,規劃任務被建構於語言模態中。與生成圖像形式的中間狀態不同,模型需生成動作序列的文字描述。形式上,給定輸入視覺狀態 v 及任務描述文字提示 p,模型被訓練以輸出一個動作序列 t = (t₁, ..., t_L),其中每個標記 tᵢ ∈ V_text 表示一個動作。模型輸入為提示詞標記與視覺標記的拼接,目標為對應的文字動作序列。研究團隊採用此前在自迴歸模型中常用的監督微調方法,透過最小化交叉熵損失來學習動作預測:
視覺規劃的實驗表現如何?
該團隊基於一些代表性任務檢驗了視覺規劃這一新典範的實際表現。
具體來說,為了對比視覺規劃與基於語言的規劃,該團隊實驗了三種視覺導航環境:FROZENLAKE、MAZE 和 MINIBEHAVIOR。所有這些環境都可以在兩種模態下求解,這樣一來便能更輕鬆地對比兩種策略。
模型方面,該團隊選擇的是完全在視覺資料上訓練的模型——這些模型在預訓練過程中未接觸過任何文字資料。
具體來說,他們選擇了大型視覺模型 LVM-3B 作為骨幹網路,並使用了 VPFT 和 VPRL 方法。與此同時,相對比的文字模型包括不同設定的 Qwen 2.5-VL-Instruct 以及 Gemini 2.0 Flash (gemini-2.0-flash-002) 和先進推論模型 Gemini 2.5 Pro (gemini-2.5-pro-preview-03-25)。
評估指標則採用了精確匹配 (EM) 和進度率 (PR) 兩種。
那麼,視覺規劃的表現如何呢?
視覺規劃勝過文字規劃
如下表 1 所示,視覺規劃器(VPFT 和 VPRL)在所有任務上均取得了最高分,優於所有使用語言推論的基準模型。
在相同的透過微調的監督訓練方法下,VPFT 在精確匹配 (EM) 指標上平均比基於語言的 SFT 高出 22% 以上,而 VPRL 的優勢還更大。在進度率 (PR) 方面也觀察到了類似的趨勢。
這些結果表明,視覺規劃典範在以視覺為中心的任務中優勢明顯,因為語言驅動的方法可能與任務結構不太契合。純推論模型(無論是大型閉源系統還是小型開源 MLLM)。如果不針對特定任務進行調校,在完成這些規劃任務時都會遇到困難。即使是先進的推論模型 Gemini 2.5 Pro,在更複雜的 MAZE 和 MINIBEHAVIOR 任務中,EM 和 PR 也幾乎低於 50%,這表明當前尖端的語言模型還難以應對這些挑戰,儘管這些任務對人類來說是直觀的。
強化學習能帶來增益
兩階段強化學習方法 VPRL 帶來了最高的整體效能,超越了其他變體。在第二階段之後,該模型在更簡單的 FROZENLAKE 任務上實現了近乎完美的規劃(91.6% EM,93.2% PR),並在 MAZE 和 MINIBEHAVIOR 任務上保持了強勁的效能。在所有任務上的效能都比 VPFT 高 20% 以上。
正如預期,該團隊的強化學習訓練的第一階段(強制輸出格式,但不教授規劃行為)獲得了近乎隨機的效能(例如,在 FROZENLAKE 資料集上實現了 11% 的 EM)。在使用新提出的獎勵方案進行第二階段的全面優化後,規劃器達到了最佳效能。這一提升凸顯了強化學習相對於 SFT 的一個關鍵優勢:VPRL 允許模型自由探索各種動作並從其結果中學習,而 VPFT 則依賴於模仿,並且傾向於擬合訓練分佈。透過獎勵驅動式更新來鼓勵利用(exploitation),VPRL 學會了捕捉潛在的規則和模式,從而實現了更強大的規劃效能。
下圖展示了一個視覺化的對比範例。
隨著複雜度提升能保持穩健性
該團隊發現,在研究不同方法在不同任務難度(更大的網格通常更難)下的表現時,強化學習依然能保持優勢。
如圖 5 所示,當在 FROZENLAKE 環境中,隨著網格尺寸從 3×3 增加到 6×6,Gemini 2.5 Pro 的 EM 分數從 98.0% 驟降至了 38.8%。相比之下,新提出的視覺規劃器不僅在所有網格尺寸下都保持了更高的準確度,而且效能曲線也更為平坦。同樣,VPRL 也表現得比 VPFT 更穩定,在 3×3 網格上 EM 分數保持在 97.6%,在 6×6 網格上也仍能達到 82.4%,這表明 VPRL 的穩健性相當好。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com