たった1つのデータで、大規模言語モデルの数学的推論能力を大幅に向上させられるのか?

图片

MLNLPコミュニティは、国内外で有名な機械学習および自然言語処理コミュニティであり、その対象者には国内外のNLP修士・博士課程の学生、大学教員、企業の研究者などが含まれます。コミュニティの願いは、国内外の自然言語処理、機械学習の学術界、産業界、および広範な愛好家の間の交流と進歩、特に初心者の皆さんの進歩を促進することです。

出典 | 機器之心

本論文の筆頭著者である王宜平氏はワシントン大学の博士課程の学生であり、その指導教官である通信著者の杜少雷氏はワシントン大学のAssistant Professorです。他の2名の通信著者であるYelong Shen氏とShuohang Wang氏はMicrosoft GenAIのPrincipal Researcherです。

最近、大規模言語モデル(LLM)は、特に複雑な数学的タスクにおいて、推論能力で著しい進歩を遂げています。上記の進歩を推進する鍵となる方法の一つが、検証可能な報酬を伴う強化学習(Reinforcement Learning with Verifiable Reward、RLVR)であり、これは数学問題の最終的な回答の正誤に基づいて0または1の結果報酬(outcome reward)を提供します。しかし、既存の強化学習アルゴリズム(PPO、GRPOなど)の改良に多くの研究が集中しており、RLVRで利用されるデータに関する研究は比較的不足しています。

先日、ワシントン大学シアトル校、マイクロソフトなどの研究機関の研究者が重要な問題を模索しました。RLVRで良好なパフォーマンスを得るには、一体どれくらいのデータが必要なのでしょうか?

彼らは驚くべき現象を発見しました。たった1つの数学データを使用するだけで、様々な数学的推論タスクにおけるモデルのパフォーマンスを大幅に向上させることができるのです!

图片

論文タイトル:Reinforcement Learning for Reasoning in Large Language Models with One Training Example

論文URL:https://arxiv.org/abs/2504.20571

コードURL:https://github.com/ypwang61/One-Shot-RLVR

W&B実験記録:https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22

X(Twitter):https://x.com/ypwang61/status/1917596101953348000 

論文によると、RLVR学習にたった1つの訓練データ(1-shot RLVRと呼ばれる)を使用するだけで、MATH500において、Qwen2.5-Math-1.5Bのパフォーマンスを36.0%から73.6%に、Qwen2.5-Math-7Bのパフォーマンスを51.0%から79.2%に向上させることができました。

このパフォーマンスは、1.2kデータセット(この1つのデータを含む)を使用したRLVRの効果とほぼ同じです。2つの訓練サンプルを使用したRLVRは、1.2kデータセット(DSR-subと呼ばれる)を使用したパフォーマンスをわずかに上回り、7.5k MATH訓練セットを使用したRLVRのパフォーマンスに匹敵します。このパフォーマンスは、6つの一般的な数学的推論タスクで観察できます。

图片

1つの数学訓練データを利用したこの1-shot RLVRによって引き出される推論能力は、ARC-Easy/Challengeのような非数学的な推論タスクにさえ拡張できます。

图片

背景の紹介

本研究では、policy gradient loss、KL divergence loss、およびentropy lossの3つの損失関数を使用しました。ここでは、policy lossはGRPO形式の損失関数を使用し、数学問題を解決できたかどうかに対応する0-1の結果報酬を与えます。KL lossは、一般的なタスクでのモデルの言語品質を維持するために使用されます。entropy loss(係数は負)は、モデルがより多様な推論パターンを生成することを奨励するために使用されます。

データ選択については、研究者はhistorical variance scoreと呼ばれる指標を使用して、データプール(前述の1.2k DSR-subデータセット)内のデータを並べ替え、モデル訓練プロセス中に精度分散が大きいデータを優先的に選択するようにしました。ただし、論文では、このデータ選択が必ずしも最適であるとは限らず、現象をより良く説明するためのものであることを強調しています。また、1-shot RLVRは、historical variance scoreがあまり高くない多くのデータにも有効であり、より一般的な現象である可能性があります。

さらに、研究者は、1-shot RLVRが非常に良いパフォーマンスを示すデータは、実際にはそれほど難しくないことも発見しました。初期モデルはすでに一定の確率で解決できています。

图片

実験観察

1-shot RLVRを通じて、論文では多くの興味深い現象も発見されました。

(1) 飽和後の汎化:論文では、1-shot RLVRにおいて、単一訓練サンプルの訓練精度が急速に100%近くに達するが、訓練の進行に伴い下流タスクのパフォーマンスは向上し続けていることがわかりました。(後述の説明によると、entropy lossが多様性の探索を奨励するため、精度は100%よりわずかに低くなり、そのため訓練プロセス中に常にpolicy gradientが維持されます)。

图片

同時に、飽和後の汎化の過程では、過学習は比較的遅く発生し、単一サンプルのロールアウトが100万回を超えてから初めて、明らかな文字化けが正しい解答と混ざって現れました。しかも、この時点でも下流タスクでのreasoning出力は正常であり、パフォーマンスは良好でした。

图片

(2) 1-shot RLVRは多くの数学例に有効であり、汎化性が高い。論文では10個以上のサンプルを試しましたが、ほとんどがMATH500で30%近くまたはそれ以上の改善を達成しました。同時に、1つの数学テーマ(幾何学など)からの単一の訓練データが、他の数学テーマ(代数学、数論など)のパフォーマンスを同時に向上させることができます。

图片

(3) より多くの自己反省:1-shot RLVRの訓練プロセスでは、以前のR1などの研究で言及された回答長(response length)の増加も発生します。さらに重要なことに、論文では、下流タスクにおけるモデルの自己反省(self-reflection)関連語彙の頻度の増加が観察されました。

图片

(4) 1-shot RLVRは異なるモデルやアルゴリズムで使用可能。研究者は異なるモデル(Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)と異なるRLアルゴリズム(GRPO, PPO)を試しましたが、いずれの場合も大きな改善が見られました。さらに、ここで使用されたデータは、Qwen2.5-Math-1.5Bモデルのhistorical variance scoreを使用して計算されたものであり、一部のデータは異なるモデルにも適用可能であることを示しています。

图片

アブレーション実験と分析

論文では、1-shot RLVRによる改善の主な原因をさらに分析しています。他の損失関数を取り除くことで、1-shot RLVRによるモデルの改善は主にpolicy gradient lossによるものであり、KL divergence lossやweight decayとはあまり関係がないことがわかりました。したがって、飽和後の汎化現象が「grokking」現象と類似点がある(どちらも過学習後に下流タスクで良好な汎化を示す)としても、「grokking」は正則化手法(weight decayなど)の影響を大きく受けるため、両者には大きな違いがあります。

图片

さらに、論文では探索を奨励することの重要性も発見しました。例えば、policy gradient lossに適切な大きさのentropy lossを追加すると、特に飽和後の汎化において、1-shot RLVRのパフォーマンスをさらに向上させることができます。追加の観察として、少量のステップでentropy lossのみを追加しても、モデルのパフォーマンスが不思議と向上することがわかりました。そしてこれは、1-shot RLVRでデータのラベルに誤りがある場合でも、パフォーマンスを部分的に向上させることにつながります。論文著者らは、この現象の原因をまだ探求しています。

图片

图片

まとめと考察

1-shot RLVRの数学タスクにおけるパフォーマンスは、RLVRの基礎となるモデル自体がしばしば良好な推論能力を持っているという多くの先行研究の結論を裏付けており、本論文はこの能力が非常に少ないデータでも引き出せる可能性をさらに示しました。

これらの現象が、最近のRLVRの進展をさらに深く考察し、RLVRの内部メカニズムを考えることを促進すると論文は信じています。そして、より良いRLVRデータ選択アルゴリズムの設計方法、1-shot RLVRおよび飽和後の汎化現象の理解方法、探索をより良く奨励する方法、および他のタスクにおける少サンプルRLVRとその応用などを探求する方法など、いくつかの問題にインスピレーションを与えています。

技術交流グループ招待状

图片

△長押しでアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加

備考:氏名-学校/会社-研究方向

(例:小張-ハルビン工業大学-対話システム)

自然言語処理/Pytorchなどの技術交流グループへの参加申請ができます

私たちについて

MLNLPコミュニティは、国内外の機械学習および自然言語処理の学者によって共同で構築された非営利の学術コミュニティです。現在、国内外で有名な機械学習および自然言語処理コミュニティに発展しており、機械学習、自然言語処理の学術界、産業界、および広範な愛好家間の進歩を促進することを目的としています。

コミュニティは、関連する実務家のさらなる学習、就職、研究などの側面でオープンな交流プラットフォームを提供できます。皆さんの関心と参加を歓迎します。

图片

メインタグ:大規模言語モデル

サブタグ:強化学習フューショット学習AI研究数学的推論


前の記事:意識とは何か? Wolfram の計算宇宙からの生命、知性、そしてすべてについての視点

次の記事:モデルに自己議論を強制、再帰的思考版CoTが人気急上昇!ネチズン:「これってほとんどの推論モデルの手法じゃない?」

短いURLをシェア