LLMエージェントのパフォーマンスが低い理由：Google DeepMindの研究が3つの失敗モードを明らかに、RLファインチューニングで緩和可能

Synced Report

編集：陳萍

本研究は、LLMに共通する失敗パターンである貪欲性、頻度バイアス、知っていることとできることのギャップについて深く掘り下げています。

大規模言語モデル（LLMs）の成功は、様々なエージェントへの関心を高めています。LLMをエージェントとして使用する際の重要な仮定の一つは、LLMが常識と思考の連鎖（Chain-of-Thought, CoT）を用いて推論を行うことで、エージェントが複雑な領域の問題を効果的に探索し、効率的に解決できるというものです。

しかし、LLMエージェントには、探索が準最適であることや、知っていることとできることのギャップ（knowing-doing gap）、つまりモデル内の知識を効果的に行動に変換できないという問題が存在します。

本論文では、Google DeepMindの研究者が、LLMが意思決定シナリオで準最適に振る舞う理由を体系的に研究しました。特に、本論文は3つの一般的な失敗パターン、すなわち貪欲性、頻度バイアス、知っていることとできることのギャップに深く迫ります。

これに基づき、これらの不足を緩和するために、自動生成されたCoT推論プロセスを強化学習（RL）によってファインチューニングすることを提案します。実験により、RLファインチューニングがLLMの意思決定能力を効果的に向上させることが示されました。これは、エージェントの探索行動を強化し、知っていることとできることのギャップを縮小するものです。

論文タイトル： LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

論文URL：https://www.alphaxiv.org/abs/2504.16078

手法紹介

本論文は、中小規模LLMに存在する3つの典型的な欠陥、すなわち貪欲性戦略、頻度バイアス、知っていることとできることのギャップを体系的に分析しました。分析は、LLMが貪欲な行動選択戦略に早期に陥るため、行動のカバー率が停滞し（最大55%が未探索）、最終的なパフォーマンスが最適レベルを下回り続けることを示しています。

具体的には、本論文は小規模LLM（2B）がコンテキスト内で最も頻繁に出現する行動を機械的にコピーする傾向があること（報酬の違いを無視する）を発見しました。この現象は頻度バイアスと定義されています。

対照的に、大規模LLM（27B）は、頻度バイアスを大幅に緩和できますが、依然として貪欲な行動を維持します。

同様に注目すべきは、本論文が知っていることとできることのギャップを定量化し、LLMがタスク要求を正しく理解できるにもかかわらず、貪欲な行動に固執するため、知っている解決策を効果的に実行できないことを発見したことです。

これらの欠陥を克服するために、本論文は自動生成された思考の連鎖（CoT）推論に基づいて強化学習ファインチューニング（RLFT）手法を提案します。

RLFT手法は、環境インタラクションから得られる報酬に依存して、自己生成されたCoTの原理をファインチューニングします。RLFTの過程で、モデルは推論プロセスを反復的に最適化することを学習し、より高い報酬をもたらすCoTパターンと行動を選択する傾向が生まれます（図1参照）。本手法は意思決定シナリオに焦点を当てています。

コンテキスト表現：ステップtにおいて、入力トークンには入力命令、出力命令、および最近のインタラクション履歴が含まれます。履歴表現には、最近のC個の状態、行動、報酬の軌跡が含まれます。

ファインチューニング目標：本論文では、Schulmanらが導入したクリップ目標を使用してファインチューニングを行い、参照ポリシーに追加のKL制約を適用します。

実験結果

比較モデル：実験では、Gemma2モデルの3つのサイズ、2B、9B、27Bを比較しました。

環境：多腕バンディット（MAB、Multi-Armed Bandit）および三目並べゲーム。

なぜLLMは意思決定においてパフォーマンスが低いのか？

先行研究では、LLMエージェントが対話環境で不十分なパフォーマンスを示し、探索が不足していることが明らかになっています。したがって、本論文ではまずモデルのパフォーマンスが低い原因を研究し、3つの一般的な失敗パターンを特定しました：(1) 貪欲、(2) 頻度バイアス、(3) 知っていることとできることのギャップ。これら3つの失敗パターンは、様々なモデルサイズで一貫して存在することがわかりました。

貪欲性は最初の最も一般的な失敗パターンであり、これはLLMがこれまでに見た行動の小さなサブセットの中で最もパフォーマンスが良い行動を過度に好むことによって特徴づけられます。この失敗パターンを説明するために、本論文ではCoTが有効/無効化されたGemma2 2B/9B/27Bが、64個のMAB（10本および20本のアームを含む）で、50回のインタラクションステップにおいて達成した平均行動カバー率を示しています（図3aおよびb参照）。

結果は、モデルが早期に貪欲戦略を採用し、行動カバー率が10ステップ後には停滞することを示しています。アーム数を増やすと貪欲性がより顕著になり、最大のモデルでも全行動の45%しかカバーできませんでした。したがって、これらのモデルはランダムエージェントよりも著しい改善が見られますが（図3c参照）、UCB（Upper-confidence Bound）と比較すると、後悔は依然として高いままです。

本論文が探索した次の一般的な失敗パターンは頻度バイアスであり、これはモデルがコンテキスト内で最も頻繁に出現する行動を、たとえその行動が低い報酬しかもたらさなくても繰り返し選択することによって特徴づけられます。

結果は、Gemma2 2Bが繰り返し行動の影響を強く受けており、繰り返し回数の増加に伴いエントロピーが継続的に減少することを示しています（図4a参照）。対照的に、27Bモデルは頻度バイアスから脱却しています（図4c参照）。実際、2Bでは繰り返し回数の増加に伴い頻度バイアスが増加し続けます。27Bは頻度バイアスを克服していますが、貪欲性の影響を強く受けています。

知っていることとできることのギャップ。エージェントはタスクを解決する方法を明確に知っており、全推論の87%が正解でした（図5参照）。しかし、正しく計算された推論に対しても、モデルは最適な行動（21%）ではなく、貪欲な行動（58%）を選択することが多いです。この不一致は、LLMがアルゴリズムを知っているにもかかわらず、行動が一貫しない欠陥を浮き彫りにしています。

RLファインチューニングの有効性

次に、本論文ではRLFTが累積後悔（最適戦略に対する）に与える影響と、それがこれらの失敗パターンを緩和できるかどうかを研究します。

結果は、RLFTが後悔値を低下させることを示しています。様々な環境で、LLMはランダムなベースラインよりも著しく優れたパフォーマンスを発揮し、RLFTは2Bおよび9Bの後悔値を低下させました。

さらに、RLFTは貪欲性を緩和できます。RLFTを通じて、エージェントは探索することを学習し、これにより貪欲性が緩和されます。

転載をご希望の場合は、本公式アカウントにご連絡ください

投稿または報道依頼：liyazhou@jiqizhixin.com

LLMエージェントのパフォーマンスが低い理由：Google DeepMindの研究が3つの失敗モードを明らかに、RLファインチューニングで緩和可能

短いURLをシェア