強化学習(RL)は、逐次意思決定問題を解決するための重要な機械学習パラダイムですが、大量の訓練データと計算リソースに依存し、タスクを跨ぐ汎化能力に限界があります。継続学習(CL)の台頭とともに、継続強化学習(CRL)は、エージェントが継続的に学習し、新しいタスクに適応し、以前に獲得した知識を保持できるようにすることで、これらの限界を克服することを目指す有望な研究分野として登場しました。
本稿では、CRLの核となる概念、課題、および手法に焦点を当て、包括的な考察を行います。知識の保存および/または転送の観点から、CRL手法を4つのタイプに分類する新しい分類体系を提案します。
I. CRLの概要
A. 定義(Definition)
CRLの定義:CRLは強化学習(RL)の拡張であり、動的でマルチタスクな環境において、エージェントが継続的に学習し、適応し、知識を保持する能力を強調します。
従来のRLとの違い:従来のRLは通常単一のタスクに焦点を当てますが、CRLはタスクのシーケンス全体で汎化能力を維持し、向上させることを重視します。
マルチタスクRL(MTRL)および転移RL(TRL)との関係:
MTRL:複数のタスクを同時に処理し、タスクセットは固定され既知です。
TRL:知識をソースタスクからターゲットタスクに転移させ、ターゲットタスクの学習を加速します。
CRL:タスクは通常順次到着し、環境は継続的に変化します。目標は知識を蓄積し、新しいタスクに迅速に適応することです。
B. 課題(Challenges)
CRLが直面する主な課題:可塑性(plasticity)、安定性(stability)、およびスケーラビリティ(scalability)の間で三つのバランスを実現すること。
安定性:壊滅的忘却を回避し、古いタスクに対する性能を維持します。
可塑性:新しいタスクを学習する能力、および以前の知識を活用して新しいタスクの性能を向上させる能力。
スケーラビリティ:リソースが限られている状況で複数のタスクを学習する能力。
C. 評価指標(Metrics)
従来のRLの評価指標:通常、エージェントの性能を測定するために累積報酬や成功率が使用されます。
CRLの評価指標:
平均性能(Average Performance):エージェントが学習したすべてのタスクにおける全体的な性能。
忘却(Forgetting):その後の訓練後に、エージェントの古いタスクに対する性能が低下する度合い。
転移(Transfer):エージェントが以前のタスクの知識を利用して、将来のタスクの性能を向上させる能力。順方向転移と逆方向転移を含みます。
D. タスク(Tasks)
ナビゲーションタスク:2次元の状態空間で離散アクションセットを使用し、エージェントが未知の環境を探索して目標に到達します。
制御タスク:3次元の状態空間と離散アクションセットを含み、エージェントが制御コマンドを使用して特定の目標状態を達成します。
ビデオゲーム:状態空間は通常画像であり、アクションは離散的で、エージェントは目標を達成するために複雑な制御を実行します。
E. ベンチマーク(Benchmarks)
CRLベンチマーク:CRL Maze、Lifelong Hanabi、Continual Worldなどがあり、これらのベンチマークはタスク数、タスクシーケンスの長さ、観察の種類などが異なります。
F. シナリオ設定(Scenario Settings)
CRLシナリオ分類:
生涯適応(Lifelong Adaptation):エージェントはタスクのシーケンスで訓練され、新しいタスクでのみ性能が評価されます。
非定常学習(Non-Stationarity Learning):タスクが報酬関数または転移関数で異なり、エージェントはすべてのタスクで性能が評価されます。
タスク増分学習(Task Incremental Learning):タスクが報酬関数と転移関数で著しく異なり、エージェントはすべてのタスクで性能が評価されます。
タスク不可知学習(Task-Agnostic Learning):エージェントはタスクラベルや識別子なしで訓練され、タスクの変化を推論する必要があります。
II. CRL分類
継続強化学習(CRL)分野の主要な手法を体系的にレビューし、新しい分類体系を提案します。CRL手法は、保存および/または転移される知識の種類に応じて、ポリシー中心型(Policy-focused)、経験中心型(Experience-focused)、動的中心型(Dynamic-focused)、および報酬中心型(Reward-focused)の4つの主要カテゴリに分類されます。
A. ポリシー中心型手法
これは最も主流の手法カテゴリであり、ポリシー関数または価値関数の保存と再利用を重視し、3つのサブカテゴリに分けられます。
1)ポリシー再利用(Policy Reuse)
以前のタスクの完全なポリシーを保持し、再利用します。
一般的な方法:古いポリシーを使用して新しいポリシーを初期化する(例:MAXQINIT、ClonEx-SAC)。
高度な方法:タスク合成(例:ブール代数)を使用してゼロショット汎化を実現する(例:SOPGOL)。
スケーラビリティは低いですが、知識転移能力は強力です。
2)ポリシー分解(Policy Decomposition)
ポリシーを共有コンポーネントとタスク固有コンポーネントに分解します。
方法には以下が含まれます:
因子分解(例:PG-ELLA、LPG-FTW)
マルチヘッドネットワーク(例:OWL、DaCoRL)
モジュール構造(例:SANE、CompoNet)
階層構造(例:H-DRLN、HLifeRL、MPHRL)
利点:構造が明確で、スケーラビリティが高く、複雑なタスクに適しています。
3)ポリシー統合(Policy Merging)
複数のポリシーを1つのモデルに統合し、ストレージリソースを節約します。
技術的な手段には以下が含まれます:
蒸留(例:P&C、DisCoRL)
ハイパーネットワーク(例:HN-PPO)
マスキング(例:MASKBLC)
正則化(例:EWC、Online-EWC、TRAC)
利点:メモリを節約し、リソースが限られたシナリオに適しています。
B. 経験中心型手法
履歴経験の保存と再利用を重視し、経験リプレイメカニズムに似ており、2つのタイプに分けられます。
1)直接リプレイ(Direct Replay)
経験バッファを使用して古いタスクデータを保存します(例:CLEAR、CoMPS、3RL)。
利点:シンプルで効果的、タスク境界が明確なシナリオに適しています。
欠点:メモリ消費が大きい、プライバシーリスクが存在します。
2)生成リプレイ(Generative Replay)
生成モデル(例:VAE、GAN)を使用して古いタスク経験を合成します(例:RePR、SLER、S-TRIGGER)。
利点:メモリを節約し、タスク境界が曖昧なシナリオやリソースが限られたシナリオに適しています。
欠点:生成品質が性能に影響します。
C. 動的中心型手法(Dynamic-focused Methods)
環境ダイナミクス(状態遷移関数)をモデリングすることで非定常環境に適応し、2つのタイプに分けられます。
1)直接モデリング(Direct Modeling)
環境遷移関数を明示的に学習します(例:MOLe、LLIRL、HyperCRL)。
利点:長期的な計画が必要なタスクに適しています。
欠点:モデリングが複雑で、計算コストが高いです。
2)間接モデリング(Indirect Modeling)
潜在変数または抽象表現を使用して環境の変化を推論します(例:LILAC、3RL、Continual-Dreamer)。
利点:より柔軟で、タスク境界が不明確な環境や動的に変化する環境に適しています。
しばしば内発的報酬メカニズムと組み合わせて使用されます。
D. 報酬中心型手法(Reward-focused Methods)
報酬関数を変更または再形成することで、知識転移と探索を促進します。一般的な方法には以下が含まれます:
報酬整形(Reward Shaping):SR-LLRL、時間論理ベースの整形方法など。
内発的報酬(Intrinsic Rewards):IML、Reactive Explorationなど、好奇心駆動の探索を通じて行われます。
逆強化学習(IRL):ELIRLなど、エキスパートのデモンストレーションから報酬関数を学習します。
大規模モデル支援報酬設計:MT-Coreなど、大規模言語モデルを使用してタスク関連の内発的報酬を生成します。