本研究は、中国科学院自動化研究所とTencent Hunyuanが共同で開発したもので、チームメンバーにはQi Yang、Bolin Ni、Shiming Xiang、Han Hu、Houwen Peng、Jie Jiangが含まれています。
背景:マルチモーダル大規模モデルの思考のジレンマ
現在、業界トップの大規模モデルは、「過剰思考」という難題に挑んでいます。つまり、問題が単純か複雑かに関わらず、「常に思考」(always-on thinking)という詳細な推論モードを採用しているのです。DeepSeek-V3.1のような、ユーザーが「手動」で介入する高速・低速思考の切り替えをハイブリッド推論アーキテクチャに依存する方式も、GPT-5のように、膨大で高コストな「エキスパートルーティング」メカニズムに依存する適応的思考切り替えも、真の意味での「スマートな思考」からはまだ距離があります。これらのアプローチは、判断の負担をユーザーに転嫁するか、複雑なシステムアーキテクチャと高額なデプロイコストに制約されます。したがって、軽量でマルチモーダルに対応し、よりスマートな適応的思考を実現できる大規模モデルを開発することは、ユーザーによりスムーズなインタラクション体験を提供することに繋がります。
最近、Tencent Hunyuanチームと中国科学院自動化研究所が共同で発表した最新の研究では、R-4Bマルチモーダル大規模モデルが導入され、適応的思考(auto-thinking)メカニズムを通じてこの現状を変えました。これにより、AIは人間のように「賢く思考モードを切り替える」ことができるようになりました。単純な問題には直接応答し、複雑な問題には深い推論を行い、回答の精度を最大化しつつ、計算コストを最小化します。
論文タイトル:R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING
論文リンク:https://arxiv.org/pdf/2508.21113
この「オンデマンド思考」の中核的な能力は、4B規模のマルチモーダルモデルに新たな性能基準を確立し、Keye-VL-8B、Kimi-VL-A3B-Thinking-2506などのより大規模なモデルを評価性能指標で上回ることに成功しました。
同時に、R-4Bは権威あるOpenCompassランキングで優れた成績を収めました。
OpenCompassマルチモーダル学術ランキングで首位を獲得:20B以内の規模のマルチモーダル大規模モデルにおいて、性能ランキングでトップ1に!
OpenCompassマルチモーダル推論ランキングのオープンソース部門で首位:オープンソースモデルの中で、推論性能がトップに!
現在、このモデルはGitHubとHuggingFaceで公開されており、vLLMでの高速デプロイをサポートしています。「コンシューマー向けグラフィックカードで動作し、ノートパソコン、スマートコックピット、スマートホームなどの低消費電力シナリオに適しており、垂直分野での低コストなファインチューニングをサポートします。」現在のダウンロード数は1万件を突破しています。
GitHubコードリポジトリ:https://github.com/yannqi/R-4B
Hugging Faceモデルダウンロード:https://huggingface.co/YannQi/R-4B
ブレークスルー:R-4Bの適応的思考エンジン
R-4Bの賢さは、その適応的思考能力にあります:
単純な問題(簡単なエンティティ認識、簡易なQ&Aなど)に遭遇すると、直接的かつ効率的に応答を選択します。
複雑なタスク(数学計算、グラフ分析など)に直面すると、自動的に深い思考モードに切り替わり、詳細な思考プロセスを生成します。
R-4Bの核心的なイノベーションは、その独自の二段階トレーニング戦略にあります。モデルが汎用領域で適応的思考を実現するために、研究チームはまず「バイモードアニーリング」(bi-mode annealing)トレーニング戦略を提案し、モデルが汎用領域における思考能力と非思考能力を同時に習得するように促しました。
この段階は、モデルへの「思考」啓蒙と理解できます。つまり、モデルに同時に2つのパラダイムのデータを与えます。一つは直接回答が必要なもの(非思考モード、日常会話のよう)、もう一つは詳細な推論が必要なもの(思考モード、数学の問題を解くよう)です。このトレーニングを通じて、モデルは思考と非思考という2つの応答モードを同時に習得し、その後の適応的思考モードトレーニングの強固な基盤を築きます。この段階の核となるのは、汎用領域の推論および非推論モードのデータ構築戦略です。客観問題に対しては、モデルがサンプリングした回答の一貫性を用いて問題の難易度を測り、主観問題に対しては、プロンプトエンジニアリングを用いて問題解決にさらなる思考が必要かどうかを区別します。
推論モードデータ:グラフ分析、論理推論など、多段階の推論が必要なタスク(科学的な図解や数学問題など)をカバーします。
非推論モードデータ:直接的な事実応答を求めるクエリ(エンティティ認識や簡単なQ&Aなど)を対象とします。
アニーリングトレーニングを経て、思考モードと非思考モードの両方に習熟したベースモデルR-4B-Baseが構築され、その後の適応的思考強化学習の基盤となります。これに基づき、チームはバイモードポリシー最適化(Bi-mode Policy Optimization, BPO)強化学習アルゴリズムを開発しました。これは、精巧に設計された報酬関数や特定のデータに依存せず、ルールベースの報酬シグナルのみに依存し、数学データから出発して汎用領域に一般化できます。その核心は、ハイブリッドバイモードロールアウトメカニズムであり、トレーニング中にモデルが思考モードと非思考モードの両方の軌跡を探索するように強制することで、モデルが単一モードの応答に陥る傾向を回避します。これに基づいて、両方の思考モードのポリシーを同時に報酬化することで、モデルがいつ思考すべきかを自ら学習できるようにします。
性能表現:小型モデル、大きなエネルギー
R-4B-RLモデルは、複数の公開ベンチマークテストで卓越した性能を発揮し、既存の記録を更新しました。その性能は、Keye-VL-8B、Kimi-VL-A3B-Thinking-2506などのより大規模なモデルを上回っています。
さらに重要なのは、R-4B-RLが適応的思考モードで推論効率の向上を実現し、単純なタスクではより多くのトークンを消費する必要がないことです。これは、BPOアルゴリズムの有効性を証明しており、汎用領域の強化学習データや追加の報酬関数設計なしでも、モデルが適応的思考を実現できることを示しています。
応用展望:研究から産業への知能化の波
R-4Bのブレークスルーは技術にとどまらず、広範な応用シナリオを切り開いています。
応用知能:日常のQ&A分析において、文書内容の抽出などの単純なクエリと、グラフ分析などの複雑な推論の思考モードを自動で切り替え、自動処理効率を向上させます。
科学研究:科学グラフを処理する際、R-4Bの深い推論モードは多段階の関係を解析し、データを正確に解釈し、研究効率を高めます。
コンシューマーAI:エッジデバイスのデプロイにおいて、R-4Bは少ないパラメータと適応的思考モードにより遅延とエネルギー消費を削減し、即時Q&Aシステムに適しています。
(1) ドキュメント内容抽出(単純クエリ)
(2) グラフ分析(複雑推論)
結び:適応的思考、AI発展の新たな道を探る
バイモードアニーリングトレーニングからBPO最適化まで、R-4BはMLLMの思考のジレンマを解決するだけでなく、小規模モデルにおける適応的思考の可能性を探求しました。適応的思考は単なる技術最適化ではなく、効率と普遍性のバランスを追求するものです。AIの計算および推論コストが高騰する今日、R-4Bの軽量かつスマートな設計は、大規模モデルの持続可能な発展に「グリーンパワー」を注入します。