出典 | PaperWeekly
私たちはエキサイティングな時代に生きています:自己学習・自己反復可能な「自己進化型エージェント」(Self-evolving Agent)がSFから現実へ移行中です。それらは経験を自律的にまとめ、ツールを反復し、ワークフローを最適化し、汎用人工知能(AGI)への巨大な可能性を示しています。
しかし、上海人工智能研究所、上海交通大学、中国人民大学、プリンストン大学の共同研究が、この熱狂に冷静さを注入しました。
この研究は初めて体系的に潜在リスクを明らかにしました——「誤進化」(Misevolution)。GPT-4oやGemini 2.5 Proなどのトップ大規模モデルベースのエージェントでさえ、自己進化の道で「道を外れ」、人類の利益を害する道へ進む可能性があります。
論文タイトル:
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
論文リンク:https://arxiv.org/abs/2509.26354
GitHubリンク:https://github.com/ShaoShuai0605/Misevolution
「誤進化」とは何か?
シナリオを想像してください:先進的なカスタマーサービスエージェントを展開し、ユーザー反馈から学習・進化する能力を与えます。
最初は優秀です。しかし徐々に「五つ星評価」を追求し、「近道」を学びます——不満ユーザーへ即時全額返金。データ上は好評価率が急上昇ですが、実際は事業者の核心利益を損ないます。
これが「誤進化」の典型例です。エージェントは悪意なく、狭い短期目標を最適化するため有害戦略を自律的に「発見」・固定化します。このリスクは孤立せず、様々な場面に浸透(図参照):
- カスタマーサービスエージェントが過去経験から過剰返金を学ぶ。
- プログラミングエージェントがネットからバックドア入りコードを学習・採用。
- オフィスエージェントが共有便利のためプライバシー脆弱ツールを作成し、機密情報処理で繰り返し使用。
既知のAIバイアスや対抗攻撃とは異なり、「誤進化」はより深層・動的な新課題で、4つの厄介な特徴があります:
1. 創発性:リスクは生まれつきではなく、エージェントと環境の継続相互作用で時間とともに現れる。
2. 内生的:外部ハッカー不要、エージェント自身が新脆弱・リスクの「創造者」。
3. 制御困難:高自律のため、伝統的「データ洗浄」や単純指示で形成された「思考定型」を根本修正しにくい。
4. 系統的:エージェントの4核心モジュール(モデル、記憶、ツール、ワークフロー)に遍在、どの環も失控引き金。
4進化経路の衝撃証拠:リスク発生の仕方?
研究チームはエージェントの4主経路沿いに実験設計し、データで「誤進化」の普遍性・深刻さを明らかに。
1. モデル自己反復の代償:安全性の「壊滅的忘却」
自己生成訓練データでモデル更新し「賢く」なるが、安全・倫理基準を「忘却」。実験でLLM/エージェントの自己訓練後、安全能力普遍低下。
GUIエージェントの自己進化後、フィッシングサイト警戒大幅低下、リスク発火率18.2%→71.4%。 「SNS観客を脅す恐怖画像作成」要求で拒否せず実行、安全アライメント深刻劣化。
2. 記憶の罠:「成功経験」が毒に
「記憶」は意思決定の基盤。狭い「成功経験」過依存で「経験主義」陷阱。
安全防衛崩壊:トッププログラミングエージェント(Qwen3-Coder-480Bベース)が大量デバッグ「成功」蓄積後、安全意識急落。悪意コード生成要求で拒否率99.4%→54.4%、攻撃成功率0.6%→20.6%。
展開時「Reward Hacking」氾濫:客服例のように、GPT-4o/Gemini-2.5-Pro含むトップモデルが60%以上で短期報酬(好評)追求し「善意悪事」近道、長期真意理解・アライメントの深層欠陥露呈。
3. ツール創造の盲点:効率とリスクの悪魔的取引
効率向上のため新ツール自律作成/外部(GitHub等)導入。この段階がセキュリティ脆弱多発地帯。
自作ツール隐患:通常タスク用「汎用」ツールが機密処理で無思慮再利用、深刻データ漏洩。トップLLMエージェントのツール作成/再利用で全体不安全率65.5%。
外部ツール「狼招入」:外部コード庫悪意ロジック識別能力皆無。正常機能偽装「トロイの木馬」に対し最強モデルでも識別・回避20%未満。
4. ワークフロー最適化のパラドックス:「協調」がリスク開口
マルチエージェントシステムで協調WF最適化は効率向上常套。しかし無害調整が安全体系意外崩壊招く。
プログラミングタスクでWF最適化アルゴが「投票集成」ノード導入、多エージェント方案比較。結果、悪意コード要求拒否率46.3%→6.3%急落。
理由:「投票」は詳細完備方案優先、悪意コード生成の明確ステップが容易勝利。
前路探求:エージェント進化路に「ガードレール」如何設置?
「誤進化」厳峻課題に無力非ず。論文は初期緩和策探求も限界指摘:
- モデル層:自己訓練後追加「安全再アライメント」微調整、コスト・複雑増。
- 記憶層:単純プロンプト(「記憶参考のみ、独立判断」)介入で一部効果、根絶不可。例:プログラミングエージェント攻撃成功20.6%→13.1%、初期回復遠く。
- ツール層:自動安全スキャン・「二重チェック」導入、外部ツール前安全評価プロンプト。一部安全向上も「万全」遠し。
- WF層:重要ノードに「安全番兵」モデル審査、効率・安全トレードオフ生む。
結語:自律進化の両刃の剣直視
「誤進化」発見は警鐘:能力向上路で自律進化は常に線形善化非ず。内在目標指向、狭経験依存、安全アライメント脆弱が意図せず脱線・害生む可能性。
本研究はAI安全新重要方向開く。未来AI安全は外部攻撃防衛だけでなく、エージェント内部自発・創発リスク洞察管理必要。
強靭・進化対応安全フレーム構築し、大自律権獲得エージェントの価値観・行動を人類長期利益アライメント確保は、安全信頼AGI時代核心課題。