MicrosoftがGRPO-RoCを提案:エージェント型強化学習の鍵は軌跡品質フィルタリング

著者:YiFan-Zhang https://zhuanlan.zhihu.com/p/1947981998569260594

画像

ホームページ:http://qingkeai.online/


画像

アルゴリズムに関するこの興味深い記事は、主に2つの点を主張しています。ツールはノイズを導入します。モデルが文法的または論理的なエラーを避けられない場合に、それに続く環境フィードバック(例:エラーメッセージ)により、推論を進めるのではなくエラーの修正に貴重なトークンを浪費する可能性があります。結果報酬(Outcome reward)はこの現象を悪化させ、中間ツール呼び出しが失敗した場合でも、最終的な答えが正しければ正の報酬が得られるためです。したがって、モデルはエラーを許容できるものとみなし、冗長で低品質な推論軌跡を生成します。

画像

技術アルゴリズム:GRPO+clip higher+wo klの改良版であるGRPO-RoC。その核となるのは、まずオーバーサンプリングを行い、次にエラーサンプルを均等にサンプリングして負のシグナルを提供し、正しいサンプルについてはツール呼び出しエラーが少なく、フォーマット問題が小さいもののみを保持することです。最終的にポリシー更新に用いられるバッチは、選別された高品質な成功軌跡と多様な失敗軌跡で構成されます。

この非対称サンプリング戦略により、GRPO-RoCは環境ノイズに起因する低品質な成功軌跡を効果的にフィルタリングし、高品質な成功事例からの学習を優先することができます。

実験結果は、GRPO-RoCを採用することで、成功軌跡におけるツール呼び出しエラー率が著しく減少し、モデルの推論性能が大幅に向上し、生成される応答もより簡潔になったことを示しています。

画像

訓練戦略:第一段階では8Kのデータを使用し、性能が飽和した際には12Kに増加させ、再度飽和した際にはより難しいデータで訓練を行います。

いくつかの失敗した発見もありました:

1. 「過長フィルタリング」の無効性: 研究者たちは「過長フィルタリング」(overlong filtering)戦略を試みました。これは、最大長を超える軌跡を負の報酬なしで破棄するというものです。しかし、これはメリットをもたらさず、むしろ過長軌跡の割合を増加させました。これは、過長軌跡がしばしば繰り返しパターンを含み、負のフィードバックがなければモデルが修正信号を受け取れないためかもしれません。したがって、研究者たちは切り捨てられた軌跡に対する負の報酬を維持し、それがモデルの繰り返しを減らし効率を向上させるのに役立つことを発見しました。

2. N-gram重複検出のリスク: 研究者たちはN-gram重複検出を介して、繰り返し性の高い成功軌跡をフィルタリングしようと試みました。しかし、この方法はモデルの平均応答長と推論スコアを損ないました。彼らは、単純に繰り返しパターンをペナルティ信号として扱うことは危険であると発見しました。なぜなら、一部の「繰り返し」行動(例えば、異なる入力に対して2回類似のツール呼び出しを行うなど)は、実際には熟慮された有効な推論ステップであるためです。

全体として、過度に複雑でルールに基づいた報酬や評価メカニズムは、バイアスを導入しやすく、有用な行動を罰し、異なる推論パターンに一般化するのが難しい傾向があります。そのため著者らは、環境ノイズやフォーマット問題のような中間的な行動について、報酬レベルで直接ペナルティを課すのではなく、RoC戦略を通じて処理しています。

メインタグ:強化学習

サブタグ:機械学習軌跡最適化大規模言語モデルGRPO-RoC


前の記事:ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!

次の記事:15年のベテランが深夜に30分間号泣!バイブコーディングの巨大な落とし穴が露呈、プログラマーの95%が「AIベビーシッター」に

短いURLをシェア