DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智慧版本,還是多模態

R-4B模型概覽圖

本研究由中科院自動化所和騰訊混元聯合研發,團隊成員包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang。

背景:多模態大型模型的思考困境

目前,業界頂尖的大型模型正競相挑戰「過度思考」的難題,也就是無論問題簡單與否,它們都採用「始終啟動思考」(always-on thinking)的詳細推理模式。無論是 DeepSeek-V3.1 這種依賴混合推理架構,提供需要使用者「手動」介入的快慢思考切換,還是像 GPT-5 那樣透過依賴龐大而高成本的「專家路由」機制提供自適應思考切換。它們距離真正意義上的「智慧思考」仍有距離。這些方案不是將判斷壓力轉移給使用者,就是受限於複雜的系統架構和高昂的部署成本。因此,研發一款輕量化、支援多模態且能實現更智慧自適應思考的大型模型,將為使用者提供更流暢的互動體驗。

多模態大模型思考模式示意圖

近期,由騰訊混元團隊與中科院自動化所合作的一項最新研究推出了 R-4B 多模態大型模型,透過自適應思考(auto-thinking)機制,改變了這一現狀,它讓 AI 能像人類一樣「智慧切換」思維模式。簡單問題直接回應,複雜問題深度推理,在最大化回答準確性的同時,最小化計算開銷。

R-4B模型概覽

論文標題:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING

論文連結:https://arxiv.org/pdf/2508.21113

這項「按需思考」的核心能力,為 4B 量級的多模態模型樹立了全新的效能標竿,使其在評測效能指標上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

R-4B與其他模型性能比較圖

同時,R-4B 在權威基準 OpenCompass 排行榜上取得了優異成績。

登頂 OpenCompass 多模態學術排行榜:在 20B 以內規模多模態大型模型中,效能排名第一!

OpenCompass多模態學術榜單排名

位列 OpenCompass 多模態推理排行榜開源榜首:在開源模型中,推理效能拔得頭籌!

OpenCompass多模態推理榜單排名

目前,該模型已在 GitHub 和 HuggingFace 上線,並支援 vLLM 快速部署。「消費級顯卡即可運行,適用於筆記型電腦、智慧座艙、智慧家居等低功耗場景,支援垂直領域低成本微調。」截至目前下載量已破萬。

GitHub 程式碼倉庫:https://github.com/yannqi/R-4B

Hugging Face 模型下載:https://huggingface.co/YannQi/R-4B

突破:R-4B 的自適應思考引擎

R-4B 的智慧之處在於其自適應思考能力:

R-4B自適應思考流程圖

遇到簡單問題(簡單實體識別、簡易問答),它選擇直接、高效地回應。

面對複雜任務(如數學計算、圖表分析),它則自動切換到深度思考模式,生成詳細的思考過程。

R-4B 的核心創新在於其獨特的兩階段訓練策略。為實現模型在通用領域的自適應思考,研究團隊首先提出雙模退火(bi-mode annealing)訓練策略,促使模型同時掌握通用領域的思考與非思考能力。

該階段可以理解為對模型進行「思考」啟蒙,即同時餵給它兩種範式資料:一種需要直接回答(非思考模式,像日常對話),另一種需要詳細推理(思考模式,像解數學題)。透過這種訓練,模型同時掌握了思考和非思考這兩種回應模式,為後續的自適應思考模式訓練打下堅實基礎。該階段的核心是通用領域推理和非推理模式的資料建構策略:針對客觀題,用模型採樣的答案一致性來衡量題目的難易程度;針對主觀題目,用提示工程的方式去區分解決問題是否需要進一步思考。

雙模退火訓練策略圖

推理模式資料:涵蓋圖表分析、邏輯推理等需多步推理的任務(如科學圖解或數學問題)。

非推理模式資料:針對直接事實回應的查詢(如實體識別或簡單問答)。

推理與非推理模式資料範例圖

經過退火訓練,得到一個同時精通思考與非思考模式的基礎模型 R-4B-Base,為後續自適應思考強化訓練奠定基礎。基於此,團隊開發了雙模策略優化(Bi-mode Policy Optimization, BPO)強化學習演算法。它無需依賴精心設計的獎勵函數或特定資料,而是僅依賴基於規則的獎勵訊號,從數學資料出發,並可泛化到通用領域。其核心是混合雙模 rollout 機制,透過強制模型在訓練中同時探索思考模式和非思考模式軌跡,從而避免模型陷入對單一模式的回應偏好。在此基礎上,透過同時獎勵兩種思考模式的策略,使模型自己學會判別何時應該思考。

BPO強化學習演算法流程圖

效能表現:小模型,大能量

R-4B-RL 模型在多項公開基準測試中效能表現卓越,刷新了現有紀錄,其效能超過 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大規模的模型。

R-4B-RL模型與競品對比圖

更關鍵的是,R-4B-RL 在自適應思考模式下實現了推理效率的提升,在簡單任務下模型無需消耗更多的 Token。這證明了 BPO 演算法的有效性,即無需通用領域的強化學習資料或額外的獎勵函數設計,模型也能實現自適應思考。

R-4B-RL推理效率提升圖

應用前景:從科研到產業的智慧化浪潮

R-4B 的突破不止於技術,更開啟了廣闊應用場景:

應用智慧:在日常問答分析中,自動切換簡單查詢(如文件內容提取)和複雜推理(如圖表分析)的思維模式,提升自動化處理效率。

科學研究:在處理科學圖表時,R-4B 的深度推理模式可解析多步關係,精準解讀資料,提高研究效率。

消費級 AI:邊緣設備部署中,R-4B 憑藉更少的參數和自適應思考模式降低延遲和能耗,適用於即時問答系統。

(1) 文件內容提取(簡單查詢)

文件內容提取範例圖

(2) 圖表分析(複雜推理)

圖表分析範例圖

結語:自適應思考,探索 AI 發展新道路

從雙模退火訓練到 BPO 優化,R-4B 不僅解決了 MLLMs 的思考困境,更在小尺寸模型上探索了自適應思考的可行性。自適應思考不僅是技術優化,更是對效率與普惠平衡的追求。在 AI 計算與推理成本飆升的今天,R-4B 的輕量化、智慧化設計,為大型模型永續發展注入綠色動力。

結語示意圖

主標籤:人工智慧

次標籤:多模態大型語言模型邊緣運算模型優化自適應思考


上一篇:LeCun 未來發表論文須經亞歷山大王批准!Meta 做出令人傻眼的操作

下一篇:谷歌 nano-banana 模型封神,MLLM 如何解決圖像任務?三個維度深度剖析

分享短網址