R1型訓練はもはや結果の正誤だけでなく！香港中文大学がSophiaVL-R1モデルを発表

MLNLPコミュニティは、国内外で知られる機械学習および自然言語処理コミュニティであり、国内外のNLP修士・博士課程学生、大学教員、企業研究者を対象としています。

コミュニティの目標は、国内外の自然言語処理、機械学習の学術界、産業界、および幅広い愛好家間の交流と進歩を促進すること、特に初心者の学生の進歩を支援することです。

出典 | Synced Review

DeepSeek-R1が爆発的な人気を博した後、R1型の結果報酬訓練パラダイムは、各分野で推論のブームを巻き起こしました。ルールに基づく結果報酬は実装が簡単で判断が厳格です。しかし、それだけで本当に十分でしょうか？

推論タスクにおいて、もし「結果の正誤」だけでモデルを報酬付けすると、モデルは「近道で回答する」ことを学んでしまう可能性が非常に高いです。

このモードでは、モデルの「正しい思考戦略」が完全に確立されず、一度の「適当な推測で正解」の報酬によって、その後も誤った戦略を繰り返し強化し、ますます道を外れてしまう可能性があります。

この問題を解決するため、香港中文大学は上海人工知能研究所チームと共同でマルチモーダル推論モデルSophiaVL-R1を発表しました。これはR1型強化学習訓練フレームワークに重要な進化をもたらし、結果の正誤だけでなく、「思考プロセス」も報酬システムに組み込むようになりました。

論文リンク：https://arxiv.org/abs/2505.17018

プロジェクトアドレス：https://github.com/kxfan2002/SophiaVL-R1

この設計は、モデルがより汎用的で信頼性の高い推論戦略を学ぶことを可能にするだけでなく、汎化能力も大幅に向上させました。複数の数学および汎用マルチモーダルベンチマークにおいて、SophiaVL-R1-7Bは、そのパラメータサイズの10倍であるLLaVA-OneVision-72Bモデルさえも打ち破りました。現在、研究チームはすべてのモデル、データ、およびコードをオープンソース化しています。

思考プロセスも評価すべき、それが良いモデル

SophiaVL-R1の主要なブレークスルーは、「思考報酬」メカニズムを導入した点にあります。これは、単に答えの正誤を見るだけでなく、モデルの推論プロセス全体が合理的で一貫性があり、信頼できるかどうかを評価し始めます。

研究チームは、多様な思考パターンとエラーを含む思考プロセス評価データセットを綿密に作成し、複数の観点から思考プロセス全体を評価する「思考評価モデル」を訓練しました。

例えば、ある推論プロセスで答えが正しくても、途中の論理が明らかに飛躍していたり、完全にでたらめだったりする場合、そのプロセスは思考スコアが0.3しか得られないかもしれません。一方、別の推論プロセスも最終的にBを選択しましたが、プロセスが綿密で導出が明確であれば、思考スコアは0.9に達するかもしれません。これは、教師が採点する際に、結果だけでなく「過程点」も与えるようなものです。

この手法は、モデルの推論品質を向上させるだけでなく、さらに重要なことに、モデルに「どう考えるか」を教え、「どう推測するか」ではないことを教えます。

SophiaVL-R1の「報酬改革」

しかし、「プロセス」を報酬メカニズムに組み込むことは、単純に合計すれば効果があるという意味ではありません。

モデルが生成する思考プロセスは自由なテキストであるため、「真面目なふり」をしやすいです。例えば、一見合理的に見える長い「論理」を書いたとしても、実際には無意味な繰り返しであったり、思考の欠陥を隠蔽している場合があります。このような報酬ハッキング（Reward Hacking）現象は、強化学習において非常によく見られる問題です。

この課題を解決するため、SophiaVL-R1はTrust-GRPOという訓練アルゴリズムを導入しました。その核心的な理念は、GRPOグループ内の情報に基づいて思考報酬の信頼性を判断することです。

この方法は、同じ問題における正解と誤答に対応する思考報酬を比較することで、誤答が得た思考報酬が異常に高いと判断された場合、その報酬の信頼度スコアを自動的に低下させ、それによって全体の訓練の安定性と信頼性を向上させます。例を以下に示します。

実験結果

複数の一般的に使用される評価ベンチマーク（MMMU、MME、MathVistaなど）において、SophiaVL-R1-7Bは非常に強力な推論能力と汎化能力を発揮しました。GRPO、SFT+GRPO、およびPRMベースの手法と比較しても非常に強力で、複数のマルチモーダル数学および汎用評価データセットにおいて、パラメータサイズが10倍のLLaVA-OneVision-72Bモデルに直接匹敵し、あるいはそれを上回る性能を示しました。