数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!

近年、私たちは大規模言語モデル(LLM)の数学的推論能力の急速な発展を目の当たりにしてきました。主要なモデルは、MATH、AIMEなどの高難度数学ベンチマークで記録を更新し続け、人間の専門家の平均レベルをも超え、毎週のランキングは熱気に満ちています 🔥。

科学の礎である数学は、問題が明確で、答えが唯一であり、評価が簡単なため、LLMの推論能力を測る「黄金基準」となっています。しかし、純粋な数学競技からより広範な現実世界の応用へと目を向けたとき、重要な問題が浮上します。数学で達成されたこれらの驚くべき成果は、真に汎用的な問題解決能力に転換できるのでしょうか?数学の天才LLMは、科学的Q&A、コード生成、対話交流、指示の遵守といった他の分野でより強力になるのか、それとも単に「偏り」が生じるだけなのでしょうか?

この核心的な疑問に答えるため、カーネギーメロン大学(CMU)、ワシントン大学、ペンシルベニア大学、M-A-P、香港理工大学の研究チームが、深く包括的な研究を実施しました。彼らは20以上のオープンソースの推論調整モデルを評価しただけでなく、精密な対照実験と詳細なメカニズム分析を通じて、異なる訓練パラダイムがモデルの能力転移性に与える大きな影響を明らかにしました。

論文リンク:https://hf.co/papers/2507.00432


🧐 驚くべき発見:すべての数学の達人が万能ではない

研究チームはまず、数学分野で優れた性能を示した20以上のオープンソースモデルに対して「大規模な実態調査」を行い、数学以外の他の推論タスク(科学Q&A、コード生成、エージェントプランニングなど)および非推論タスク(対話Q&A、指示の遵守など)での性能をテストしました。

モデルの能力転移効果を定量化するために、彼らは新しい測定基準である転移性指数(Transferability Index, TI)を提案しました。簡単に言えば、TIの正の値は、モデルが数学で得た恩恵が他の分野に成功裏に「転移」したことを示します。一方、負の値は、数学的能力の向上と同時に、他の分野での性能が犠牲になり、能力が低下したことを意味します。

結果は驚くべきものでした:

画像

図1:異なるモデルの数学的能力転移性指数

この図は、複数のモデルが数学から他の分野への能力転移状況を示しています。横軸は異なるパラメータのベースモデル、縦軸は転移性指数(視覚化のために符号対数変換を使用)です。強化学習(RL)で調整されたモデル(オレンジ色の点)は、ほとんどが正の転移を示しているのに対し、教師ありファインチューニング(SFT)で訓練されたモデル(青色の点)は、特に非推論タスクで大量の負の転移が見られ、数学をうまく学習する一方で、汎用能力が逆に低下していることを示しています。

この現象は、重要な分岐点、すなわちモデルのファインチューニングパラダイムを明らかにしました。モデルのサイズ、アーキテクチャ、訓練データに関わらず、強化学習(RL)で調整されたモデルは、一般的に強力な汎化能力を示しますが、教師ありファインチューニング(SFT)モデルは「壊滅的忘却」に陥りやすく、非数学的タスクで性能が劣ることがよくあります。


🔬 制御実験:SFTとRLの直接対決

「ファインチューニングパラダイムが鍵である」という仮説を検証するため、研究チームは厳格な制御実験を行いました。彼らは強力なQwen3-14Bをベースモデルとして選択し、全く同じ高品質の数学データセットを用いて訓練しました。

• SFTパス:研究者はまず、より強力な「教師モデル」(Qwen3-32B)に詳細な問題解決手順(すなわちCoT、思考連鎖)を生成させ、その後これらの「標準解答」を用いてQwen3-14Bを教師ありファインチューニングし、段階的に模倣するように教えました。

• RLパス:研究者は問題解決手順を提供せず、Qwen3-14Bに最終的な答えの正誤のみを伝え、これを報酬信号として、モデルが探索を通じて正しい答えを得る方法を自ら学習するようにしました。

実験結果は以前の発見を完璧に裏付けました:

画像

図2:SFTとRLがモデルの汎用能力に与える影響

この図は、数学データのみを用いて訓練された後のSFTとRLが、同一のベースモデル(Qwen3-14B-Base)の性能に与える影響(ベースラインに対する向上)を示しています。RLで訓練されたモデル(左側)は、数学や他の推論タスクで進歩を遂げただけでなく、非推論タスクでも広範な汎化能力を示しました。対照的に、SFTで訓練されたモデル(右側)は、推論タスクではある程度の汎化が見られたものの、非推論タスクでは転移能力が非常に限られており、性能低下すら見られました。

この結果は、数学データのみを用いて訓練した場合でも、RLがモデルの推論能力を効果的に向上させ、同時に汎用能力を損なうことなく、むしろ向上させることを力強く証明しました。一方、SFTはモデルを「丸暗記」させやすく、訓練領域外のタスクに直面したときに「硬直化」させる傾向があります。


🧠 深層探求:なぜRLの汎化性がより強力なのか?

これら二つの訓練パラダイムの背後にあるより深いメカニズムの違いを解明するため、研究チームはモデルの「内面世界」を覗き見るために二つの主要な「ツール」を駆使しました。それは、潜在空間表現分析とトークン空間分布シフト分析です。

1. 潜在空間:SFTの「大規模な変更」 vs. RLの「精密なファインチューニング」

主成分分析(PCA)を通じて、研究者は訓練後にモデル内部の情報表現方法がどれほど変化したかを観察できます。彼らは以下を発見しました:

• SFTは劇的な表現と出力のドリフトを引き起こします。これはSFT訓練が「大規模な変更」のようであり、数学タスクに適応させるためにモデル本来の知識構造を大幅に変更し、その結果、非推論タスクの処理時に不適合が生じることを意味します。

• RLは、汎用ドメインの構造をより良く保持できます。RLの訓練は「精密なファインチューニング」に近く、モデル本来の汎用知識フレームワークを破壊することなく、推論関連の経路を重点的に強化します。

2. トークン空間:SFTの「何でもかんでも手を出す」 vs. RLの「主要なものに集中」

テキスト生成時の各トークン(token)の選択確率の変化を分析することで、研究者はより興味深い現象を発見しました。

画像

図3:RLとSFTモデルで数学タスク中に顕著に変化したトークン

このワードクラウドは、RLモデル(左)とSFTモデル(右)が数学タスクを処理する際に、どのトークンの出力確率が顕著に変化したかを示しています。RLモデルは、主に論理構造に関連する単語(赤色ハイライト、例:But, So。青色ハイライトは特定の内容に関連する単語を示す)を変更し、効率的な推論能力向上を達成しました。一方、SFTモデルは、関連する単語だけでなく、タスクとは無関係な多くの単語も変更しており、その学習方法がより粗放で表面的であることを示しています。


🔥 結論と示唆

この研究は、LLMの推論能力向上において見過ごされがちな重要な点、すなわち訓練方法が私たちが想像する以上に重要であることを明らかにしました。

• 強化学習(RL)は能力転移を実現する鍵です:RLで調整されたモデルは、数学などの特定の推論能力を向上させながら、他の分野での汎用能力を維持または強化し、「専門家」と「万能者」のバランスを実現します。

• 教師ありファインチューニング(SFT)は「偏りの罠」に警戒が必要です:特に強力なモデルから蒸留された「完璧な」データを用いたSFTでは、ランキングスコアを迅速に向上させることができても、モデルの汎用性を損ない、「壊滅的忘却」を引き起こす可能性が非常に高いです。

• 深いメカニズム理解が持続的な成果をもたらします:モデルの内部表現と出力分布の分析を通じて、RLの優位性がその「精密」で「最小侵襲的」な最適化方法にあることを理解しました。一方、SFTは「暴力的」すぎることがあり、モデルの貴重な事前学習済み知識を破壊する可能性があります。

この研究は、将来的にどのようにしてより強力で汎用的なAI推論モデルを構築すべきか、その方向性を明確に示しました。おそらくコミュニティは、SFTの蒸留データへの依存を再考し、RLをより多く探索・応用して、LLMを「問題解決の達人」から真の「汎用問題解決者」へと進化させるべきでしょう。🚀

メインタグ:大規模言語モデル

サブタグ:強化学習機械学習AI研究教師ありファインチューニング


前の記事:報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す

次の記事:MCPツールスタッキングは大きな落とし穴!開発者の大物が語る:コマンドラインの「脆さ」がAIを壊滅させた!コード実行環境に一本化すべき:7回の呼び出しが1回に!ネットユーザー:ブラックボックスツールはとっくに捨てるべきだった!

短いURLをシェア