ルールベース強化学習ファインチューニングにおける明示的思考の研究

はじめに

近年、ルールベースの強化学習ファインチューニング（RFT）は、マルチモーダル大規模言語モデル（MLLM）への応用において顕著な進展を遂げ、一部のモデルでは教師ありファインチューニング（SFT）よりも優れた成果を上げています。

RFTは検証可能な報酬を利用して訓練を行い、モデルが回答する前に思考することを促します。明示的な思考はRFT成功の鍵と考えられており、マルチモーダルRFTに関する多くの研究は「aha moment」の効果を再現することに専念しています。

しかし、空間理解のような一部の単純な視覚タスクでは、複雑な推論は必要ない場合があります。最近の研究では、過度な思考が特定のタスクの推論パフォーマンスに悪影響を与える可能性があることが示されています。

さらに、SFTと比較して、RFTは通常、より長い応答を複数生成する必要があるため、より多くのファインチューニング時間を要します。したがって、明示的な思考プロセスの役割は、特に精度と訓練効率の観点から、さらに検討する価値があります。

このような背景のもと、上海AI Labの研究チームは、マルチモーダル大規模言語モデルにおける思考プロセスについて詳細な研究を行いました。チームはまず、MLLMを用いた閉形式分類タスクの課題を検討しました。事前学習データの制限により、現在のMLLMは分類能力において不十分なパフォーマンスを示しています。

論文タイトル：

Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

論文リンク：

https://arxiv.org/abs/2503.16188

コードリンク：

https://github.com/minglllli/CLS-RL/tree/main

SFTはMLLMを最先端の分類モデルにアラインメントさせる上で顕著な効果を上げていますが、大規模なラベル付きデータセットの取得には依然として莫大なコストと計算上のオーバーヘッドがかかります。したがって、Few-Shotファインチューニングは有望な代替手段となっていますが、特にコントラスト視覚言語モデルへの応用は進んでいるものの、自己回帰型MLLMにおける応用はまだ十分に探求されておらず、さらなる深い研究が必要です。

ルールベースRFTの最新の成功に触発され、チームは分類ファインチューニングのための強化学習フレームワークであるCLS-RLを提案しました。トークンレベルの損失を通じてファインチューニングプロセスをガイドするSFTとは異なり、CLS-RLは検証可能な報酬損失を使用してMLLMをファインチューニングし、モデルが多様な推論思考を探求するように導きます。

実験結果は、CLS-RLが11のデータセットのFew-Shotおよびベースから新規クラス設定においてSFTよりも優れており、ドメイン内学習と新規クラス汎化の両方でより良い結果を達成したことを示しています。

さらに、研究チームはCLS-RLファインチューニングにおける「無料のランチ」現象も発見しました。Few-ShotコントラストVLMファインチューニングに関する過去の研究では、VLMが特定のデータセットでファインチューニングされると、他のデータセットでのパフォーマンスが急激に低下することが示されており、この現象は壊滅的忘却として知られています。

しかし、CLS-RLを使用して特定のデータセットでファインチューニングを行った場合、モデルの他のデータセットでのパフォーマンスも向上しました。この現象は「無料のランチ」現象と呼ばれています。研究は、ルールベースRFTがFew-Shotファインチューニングにおける壊滅的忘却の問題を緩和するだけでなく、画像分類の基礎知識を効果的にモデルに教えることができることを示しています。

次に、研究チームはルールベースRFTにおける思考プロセスの役割を再検討し、議論しました。Deepseek-R1における数学問題の応答長が徐々に増加するのとは異なり、CLS-RLの応答長は特定のステップで急激に減少し、一方で精度報酬は顕著に上昇しました。

これは、分類タスクにおける思考プロセスは数学問題ほど重要ではない可能性があり、そのためモデルは最終的な答えを導き出すためによりシンプルな思考方法を採用する傾向があることを示しています。さらに、特定のタスクにおける過度な思考の悪影響も検証されました。

これに基づき、研究チームは思考プロセスを抑制することを目的とした新しい手法、No-Thinking-RLを提案しました。No-Thinking-RLでは、モデルは直接質問に回答するよう求められ、報酬メカニズムもそれに応じて調整され、モデルの出力が真のラベルと完全に一致する場合にのみ報酬が与えられます。

驚くべきことに、No-Thinking-RLは多くのタスクでCLS-RLよりも優れており、訓練時間も大幅に短縮されました。

研究チームは、No-Thinking-RLがCLS-RLよりも優れている理由は、検証可能な回答の前に明示的に思考することが学習を阻害する可能性があるためだと推測しました。したがって、彼らはこの負の影響を軽減するために、「思考後回答」手法（Think-After-Answer）をさらに提案しました。これは思考を回答の後に置くものです。その後の実験でこの仮説が検証されました。

最後に、研究チームは、数学、空間推論、パズルタスクを含む多様なタスクでNo-Thinking-RLを評価し、2Bおよび7Bモデルサイズを対象としました。

結果として、2Bモデルの場合、No-Thinking-RLはすべてのタスクで思考ありのRFTよりも優れており、特に数学タスクで顕著でした。一方、7Bモデルでは、空間理解タスクでは3つの手法のパフォーマンスは類似していましたが、数学問題では思考ありのRFTがNo-Thinking-RLよりも明らかに優れていました。

これらの結果は、小規模モデル（2Bなど）がファインチューニングプロセスで高品質な思考を生成できず、低品質な思考がパフォーマンスを低下させる可能性があることを示しています。また、単純な視覚タスクでは思考は重要ではなく、No-Thinking-RLは小規模モデルで思考ありのRFTよりも優れており、7Bモデルでは同様のパフォーマンスを示しました。

手法

モデルの最適化には、強化学習（RL）アルゴリズムとしてGroup Relative Policy Optimization（GRPO）が採用されました。トークンレベルの損失を通じてモデルを最適化するSFT手法とは異なり、GRPOのようなRL手法は報酬損失からのポリシー勾配を利用して最適化を行い、モデルがより広い探索空間で推論を探求するように促します。

この手法では、応答のセットを使用して相対的な優位性を推定し、正規化によってモデルの逸脱度を制御します。この手法は、応答をサンプリングしてその報酬を正規化することで相対的な優位性を計算し、PPOにおける評論家モデルを回避することで、計算効率を向上させます。

2.1 CLS-RL

CLS-RL手法は、指示プロンプトと報酬関数を導入しました。指示プロンプトは、モデルが回答を出す前に思考することを促し、思考プロセスと最終的な回答を出力させます。報酬関数は形式報酬と精度報酬で構成されており、形式報酬はモデルが思考プロセスを正しく表示することを促し、精度報酬はルールベースで、モデルの出力が真のラベルと一致するかどうかをチェックします。

2.2 No-Thinking-RL

CLS-RLとは異なり、No-Thinking-RL手法は、思考プロセスを避け、モデルが直接回答を出力することを促します。報酬関数は精度のみに焦点を当て、モデルの出力は真のラベルと正確に一致する必要があります。この手法は、訓練と推論時間を大幅に削減し、複雑な推論を必要としない単純な視覚タスクに適しています。

分類実験パート

このパートでは、著者らは分類実験の結果を示し、Few-Shot学習能力と「無料のランチ」現象を重点的に評価し、ベースタスクから新規タスクへの転移性能および開集合分類のパフォーマンスを分析しました。

3.1 実験設定

実験目標：本実験の主な目標は、閉形式の分類タスクを行うことです。これは、一部のカテゴリラベルが与えられ、モデルがそこから正しいカテゴリを選択する必要があるということです。実験における質問形式は「この写真には何が写っていますか？{指示プロンプト}」であり、指示プロンプトは異なる手法に応じて調整されます。

データセット：3つの手法（SFT、CLS-RL、No-Thinking-RL）を包括的に評価するために、著者らはImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT、UCF101を含む11の公開分類ベンチマークデータセットを選択しました。

閉形式分類タスクの場合、これらのデータセットから40%のラベル（ベースから新規タスクでは80%のラベルを使用）をランダムに選択し、真のラベルを含めました。

実装詳細：すべての実験は8基のA100 GPUでPytorchフレームワークを使用して行われました。著者らはQwen2-VL-2B-Instructをベースモデルとして使用し、すべてのパラメータをファインチューニングしました。各GPUのバッチサイズは1に設定され、2ステップの勾配累積を使用しました。画像解像度は328×328に統一されました。

3.2 Few-Shot学習結果

Few-Shot学習は、モデルが非常に少ないサンプル数でタスク関連の知識を効果的に学習できるかどうかを検証することを目的としています。著者らは4-shot設定でSFTとCLS-RLを訓練し、異なるデータセットでのパフォーマンスを比較しました。

実験結果から、CLS-RLはほとんどのデータセットでSFTよりも明らかに優れており、全体平均精度も高いことがわかります。これは、ルールベースの強化学習ファインチューニングがモデルの下流タスクでのより良い結果達成に役立つことを示しています。一部のデータセットではSFTがCLS-RLを上回りましたが、全体的にはCLS-RLがより有利でした。

さらに、No-Thinking-RLは10のデータセットでCLS-RLを上回り、最終的にCLS-RLよりも平均精度が3.14%高くなりました。これは、思考プロセスを取り除いた強化学習ファインチューニングがモデルの性能を効果的に向上させることができ、下流タスクでのパフォーマンスが思考プロセスを含むファインチューニング手法よりも優れていることを示しています。

3.3 「無料のランチ」現象

Few-Shot学習において、著者らは「無料のランチ現象」についても議論しました。これまでの研究では、モデルが特定のデータセットでファインチューニングされると、他のデータセットでのパフォーマンスが顕著に低下する可能性があり、この現象は壊滅的忘却として知られています。

しかし、実験結果は、CLS-RLおよびNo-Thinking-RLによるファインチューニングが、データセットの分布やクラスリストが大きく異なる場合でも、他のデータセットでのモデルのパフォーマンスを向上させることができることを示しています。

例えば、モデルがSUN397データセットでファインチューニングされた後、ImageNet、StanfordCars、UCF101データセットでのパフォーマンスはそれぞれ16.98%、15.88%、11.10%向上しました。これは、ルールベースの強化学習ファインチューニングが、特定のデータセットの情報記憶にとどまらず、より広範な分類知識の獲得にモデルを支援できることを示しています。

3.4 収束性比較

著者らは、CLS-RLとNo-Thinking-RLの収束速度も比較しました。実験結果によると、No-Thinking-RLの収束速度はCLS-RLよりも速いことが示されています。ほとんどの訓練ステップで、No-Thinking-RLはより高い精度報酬を得ており、訓練の初期段階（最初の30ステップ）でもテスト精度が顕著に先行しています。

著者らは、CLS-RLが報酬損失形式を導入しているため、訓練初期に一定のノイズが発生し、精度報酬の不安定性につながる可能性があると考えています。

3.5 効率比較

最後に、著者らはCLS-RLとNo-Thinking-RLの訓練および推論効率を比較しました。結果は、CLS-RLの訓練および推論段階での時間消費がSFTおよびNo-Thinking-RLよりも明らかに高いことを示しています。これは、ファインチューニングおよび推論プロセス中に複数のより長い応答を生成する必要があるためです。

対照的に、SFTはファインチューニングプロセス中にラベルのみを最適化し、No-Thinking-RLは精度報酬を通じてモデルを最適化するため、訓練および推論時間を大幅に削減します。

より多様なタスクでの実験と分析

このセクションでは、著者らは空間理解、数学問題、パズルタスクを含む、より多様なタスクでの実験結果を紹介します。実験は2Bおよび7Bモデルで行われました。著者らはまず「思考後回答」（Think-After-Answer）手法を紹介し、それに対応する実験結果を報告しました。

4.1 思考後回答（Think-After-Answer）

著者らは、No-Thinking-RLがCLS-RLよりも優れたパフォーマンスを示す理由を検討しました。示されているように、CLS-RLの収束速度はNo-Thinking-RLよりも遅いです。したがって、著者らは、検証可能な回答の前に明確な思考を行うことが、学習と収束を妨げる可能性があると仮説を立てました。この仮説を検証するために、著者らは「思考後回答」手法を提案しました。この手法では、まずモデルに質問に回答させ、その後簡単な推論プロセスを提供します。

これにより、RFTプロセスにおける明確な思考の負の影響を軽減できます。「思考後回答」のプロンプトは、texttt{Question} まず</answer>の形式で回答を出力し、次に</reason>の形式で簡単な推論プロセスを出力してください}です。精度報酬は変更されません。

仮説が正しければ、「思考後回答」の収束速度は思考ありのRFTよりも速く、特定のタスクでの最終パフォーマンスはより良いはずです。その後の実験結果はこの仮説を検証しました。

4.2 CVBenchでの結果

SATデータセットで2ラウンドのファインチューニングを行った後、著者らはCVBenchデータセットでモデルのパフォーマンスをテストしました。表は、VisualThinker-R1-Zero、Think-After-Answer、No-Thinking-RLモデルの結果をまとめたものです。

2Bモデルの場合、No-Thinking-RLはVisualThinker-R1-Zeroよりも精度が6.4%向上し、すべてのサブタスクで優れたパフォーマンスを発揮しました。Think-After-AnswerのパフォーマンスはNo-Thinking-RLとVisualThinker-R1-Zeroの中間でした。7Bモデルの場合、3つの手法の結果は類似していました。

実験結果は、空間理解タスクでは、RFTプロセス中に思考を行わない方がパフォーマンスが向上し、思考ありのRFTは小規模モデルではさらにパフォーマンスが低下することを示しています。

さらに、著者らは精度報酬曲線を可視化しました（図参照）。これからわかるように、Think-After-Answerの収束速度は思考ありのRFTよりも速いです。精度結果と収束速度は、検証可能な回答の前に明確な思考を行うことが学習と収束を妨げるという著者らの仮説を検証しました。

4.3 数学問題の実験結果

この小節では、著者らは数学問題に関する実験を行いました。最終的な回答を得るには、複雑な中間ステップを生成する必要があります。著者らはMath-40Kデータセットを使用してファインチューニングを行い、MathVistaとMathVisionでファインチューニング後のモデルをテストしました。

結果は表の通りです。2Bモデルの場合、No-Thinking-RLは思考ありのRFTよりも優れています。数学問題は通常、最終的な答えを得るために複雑な中間ステップを必要とするため、この結果はかなり驚きです。これは、ベースモデルの能力が弱い場合、RFTプロセス中に推論チェーンを生成するとパフォーマンスが低下し、思考なしのRFTと比較してRFTのパフォーマンスが不十分であることを意味します。

著者らはさらにMathVistaを複数のサブタスクに分割し、数学文章問題（MWP）を除くすべてのタスクでNo-Thinking-RLが思考ありのRFTよりも優れていることを発見しました。

さらに、著者らは、思考ありのRFTがMWPタスクでNo-Thinking-RLを上回ることも発見しました。MWPおよびMathVisionの問題は、最終的な回答を得るために大量の計算を必要とするため、正確な回答を直接出力することは非常に困難です。他のサブタスクでは、計算要件がそれほど高くない可能性があるため、No-Thinking-RLも良好なパフォーマンスを発揮できます。

7Bモデルの場合、思考ありのRFTはNo-Thinking-RLよりも大幅に優れており、これはモデルの推論能力が十分に強い場合、RFTにおける推論チェーンがモデルの推論能力を向上させ、それによって最終的なパフォーマンスを向上させることを示しています。

しかし、著者らは、教科書質問応答（TQA）および視覚質問応答（VQA）タスクでは、思考ありのRFTとNo-Thinking-RLのパフォーマンスが近いことに気づきました。これらのタスクは通常、複雑な推論を必要としないため、類似の結果は、特定の視覚タスクでは思考がRFTの必須条件ではないことをさらに示唆しています。

4.4 パズル問題の実験結果

このパートでは、著者らはパズル問題の実験結果を紹介します。著者らは6.5kのデータを含む訓練データセットを生成し、PuzzleVQA（ドメイン内テストとして）およびAlgoPuzzleVQA（ドメイン外テストとして）でファインチューニング後のモデルをテストしました。

実験結果は表の通りです。著者らは、2Bおよび7Bモデルにおいて、No-Thinking-RLがドメイン内およびドメイン外テストの両方で思考ありのRFTよりも優れていることを発見しました。その理由は、2Bおよび7Bベースモデルのパズルタスクにおける推論能力が弱いため、RFTプロセス中に生成される推論チェーンが学習プロセスを妨げる可能性がある一方で、Think-After-Answerは通常の思考ありのRFTよりも明らかに優れたパフォーマンスを示したためと考えられます。

さらに、図は、Think-After-Answerの精度報酬収束速度がNo-Thinking-RLよりもはるかに速いことを示しています。これらのすべての結果は、RFTプロセス中に時期尚早な明確な思考が学習を妨げるという著者らの仮説をさらに検証しています。

結論

本論文では、ルールベース強化学習ファインチューニング（RFT）における明示的な思考の役割を体系的に研究し、CLS-RL、No-Thinking-RL、Think-After-Answerという3つの異なる訓練パラダイムを提案し、複数の視覚タスクで実証的な分析を行いました。研究から以下のことが明らかになりました。

1. CLS-RLは、マルチモーダル大規模言語モデル（MLLM）が検証可能な推論を行うように効果的に導き、従来の教師ありファインチューニング（SFT）よりも大幅に優れており、優れた転移能力を持ち、未見のデータセットで「無料のランチ」のような汎化を実現できます。

2. No-Thinking-RLは、「思考が必要か否か」という仮説をさらに挑戦し、思考チェーンを生成するのではなく直接回答を出力することで、パフォーマンスにおいてCLS-RLを上回るだけでなく、訓練および推論コストを大幅に削減しました。

3. より複雑なタスクでの実験により、小規模モデル（2Bなど）によって生成される低品質な思考内容は、逆にRFTの収束とパフォーマンスを妨げることが示され、単純な視覚タスクでは「思考しない」方がより良い結果をもたらすことさえあります。

4. Think-After-Answerの導入は、「検証可能な回答を生成する前に明示的な思考を行うことがモデルの学習を妨げる」という重要な仮説を検証しました。

総じて、本研究は「思考が合理的である」という直観的な認識に挑戦するだけでなく、異なるタスクやモデル規模でより効率的な視覚強化学習パラダイムを設計するための新しい理論的根拠と実践的な道筋を提供します。それは、マルチモーダル推論において、思考の「タイミング」と「方法」が「思考するかどうか」自体よりも重要であることを示唆し、今後のRFTパラダイム設計に全く新しいアイデアを提供します。

その他の記事

#投稿チャンネル#

あなたの文章をもっと多くの人に見てもらいましょう

より多くの高品質なコンテンツをより短いパスで読者に届け、読者が高品質なコンテンツを探すコストを削減するにはどうすればよいでしょうか？答えは「あなたが知らない人」です。

あなたが知らない人の中には、あなたが知りたいことを知っている人が必ずいます。PaperWeeklyは、異なる背景や方向を持つ学者や学術的なインスピレーションが相互に衝突し、より多くの可能性を生み出すための橋渡しとなるかもしれません。

PaperWeeklyは、大学の研究室や個人が、最新の論文解説、学術的なホットトピックの分析、研究経験、競技会経験の解説など、様々な高品質なコンテンツを私たちのプラットフォームで共有することを奨励しています。私たちの目的はただ一つ、知識を真に流動化させることです。

📝 投稿の基本的な要件：

• 記事は個人のオリジナル作品であり、公開チャンネルで発表されていないこと。他のプラットフォームで既に発表されている、または発表予定の記事の場合は、明確に記載してください。

• 投稿は markdown 形式で記述することを推奨します。記事中の図は添付ファイルとして送信し、画像は鮮明で著作権の問題がないようにしてください。

• PaperWeeklyは原著者の署名権を尊重し、採用されたオリジナル初掲載の記事ごとに、記事の閲覧数と記事の質に応じた業界競争力のある原稿料を提供します。

📬 投稿チャンネル：

• 投稿メールアドレス：hr@paperweekly.site

• 投稿の際には、記事採用時にすぐに連絡が取れる連絡先（WeChat）を備考欄に記載してください。

• 編集者のWeChat（pwbot02）を直接追加して、迅速に投稿することも可能です。備考欄に氏名と投稿内容を記載してください。

△長押ししてPaperWeekly編集者を追加

🔍

現在、「知乎」でも私たちを見つけることができます

知乎のホームページで「PaperWeekly」を検索してください

「フォロー」をクリックして、私たちのコラムを購読してください

ルールベース強化学習ファインチューニングにおける明示的思考の研究

短いURLをシェア