持續強化學習技術最新綜述

強化學習（RL）是一種用於解決序列決策問題的重要機器學習範式，然而，RL依賴於大量的訓練資料和計算資源，在跨任務泛化能力方面存在局限性。隨著持續學習（CL）的興起，持續強化學習（CRL）作為一種有前景的研究方向應運而生，旨在透過使智慧體能夠持續學習、適應新任務並保留先前獲得的知識，來解決這些局限性。

文章對CRL進行了全面的考察，重點關注其核心概念、挑戰和方法，提出了一種新的CRL方法分類體系，從知識儲存和/或轉移的角度將它們分為四種類型。

一、CRL總覽

A. 定義（Definition）

CRL的定義：CRL是強化學習（RL）的擴展，強調智慧體在動態、多任務環境中持續學習、適應和保留知識的能力。

與傳統RL的區別：傳統RL通常專注於單一任務，而CRL強調在任務序列中保持和提升泛化能力。

與多任務RL（MTRL）和遷移RL（TRL）的關係：

MTRL：同時處理多個任務，任務集固定且已知。

TRL：將知識從源任務遷移到目標任務，加速目標任務的學習。

CRL：任務通常按順序到達，環境持續變化，目標是累積知識並快速適應新任務。

B. 挑戰（Challenges）

CRL面臨的主要挑戰：在可塑性（plasticity）、穩定性（stability）和可擴展性（scalability）之間實現三角平衡。

穩定性：避免災難性遺忘，保持對舊任務的性能。

可塑性：學習新任務的能力，以及利用先前知識提高新任務性能的能力。

可擴展性：在資源有限的情況下學習多個任務的能力。

C. 度量標準（Metrics）

傳統RL的度量：通常使用累積獎勵或成功率來衡量智慧體的性能。

CRL的度量：

平均性能（Average Performance）：智慧體在所有已學習任務上的整體性能。

遺忘（Forgetting）：智慧體在後續訓練後對舊任務性能的下降程度。

轉移（Transfer）：智慧體利用先前任務知識提高未來任務性能的能力，包括前向轉移和後向轉移。

D. 任務（Tasks）

導航任務：在二維狀態空間中使用離散動作集，智慧體探索未知環境以到達目標。

控制任務：涉及三維狀態空間和離散動作集，智慧體使用控制命令達到特定目標狀態。

電玩遊戲：狀態空間通常為圖像，動作為離散，智慧體執行複雜控制以實現目標。

E. 基準測試（Benchmarks）

CRL基準測試：如CRL Maze、Lifelong Hanabi、Continual World等，這些基準測試在任務數量、任務序列長度和觀察類型等方面有所不同。

F. 情境設定（Scenario Settings）

CRL情境分類：

終身適應（Lifelong Adaptation）：智慧體在任務序列上訓練，僅在新任務上評估性能。

非定常學習（Non-Stationarity Learning）：任務在獎勵函數或轉移函數上有所不同，智慧體在所有任務上評估性能。

任務增量學習（Task Incremental Learning）：任務在獎勵和轉移函數上顯著不同，智慧體在所有任務上評估性能。

任務無關學習（Task-Agnostic Learning）：智慧體在沒有任務標籤或身份的情況下訓練，需要推斷任務變化。

二、CRL分類

系統地回顧了持續強化學習（CRL）領域的主要方法，並提出了一種新的分類體系，將CRL方法按照所儲存和/或轉移的知識類型分為四大類：基於策略的（Policy-focused）、基於經驗的（Experience-focused）、基於動態的（Dynamic-focused）和基於獎勵的（Reward-focused）方法。

A. 基於策略的方法

這是最主流的一類方法，強調對策略函數或價值函數的儲存與複用，分為三個子類：

1）策略重用（Policy Reuse）

保留並重用先前任務的完整策略。

常見做法：使用舊策略初始化新策略（如MAXQINIT、ClonEx-SAC）。

高級方法：使用任務組合（如布林代數）實現零樣本泛化（如SOPGOL）。

可擴展性較差，但知識遷移能力強。

2）策略分解（Policy Decomposition）

將策略分解為共享組件和任務特定組件。

方法包括：

因子分解（如PG-ELLA、LPG-FTW）

多頭網路（如OWL、DaCoRL）

模組化結構（如SANE、CompoNet）

層次化結構（如H-DRLN、HLifeRL、MPHRL）

優點：結構清晰、可擴展性強、適合複雜任務。

3）策略合併（Policy Merging）

將多個策略合併為一個模型，節省儲存資源。

技術手段包括：

蒸餾（如P&C、DisCoRL）

超網路（如HN-PPO）

遮罩（如MASKBLC）

正規化（如EWC、Online-EWC、TRAC）

優點：節省記憶體、適合資源受限場景。

B. 基於經驗的方法

強調對歷史經驗的儲存與複用，類似於經驗回放機制，分為兩類：

1）直接回放（Direct Replay）

使用經驗緩衝區保存舊任務資料（如CLEAR、CoMPS、3RL）。

優點：簡單有效，適合任務邊界明確的場景。

缺點：記憶體消耗大，存在隱私風險。

2）生成回放（Generative Replay）

使用生成模型（如VAE、GAN）合成舊任務經驗（如RePR、SLER、S-TRIGGER）。

優點：節省記憶體，適合任務邊界模糊或資源受限場景。

缺點：生成品質影響性能。

C. 基於動態的方法（Dynamic-focused Methods）

透過建模環境動態（狀態轉移函數）來適應非定常環境，分為兩類：

1）直接建模（Direct Modeling）

顯式學習環境轉移函數（如MOLe、LLIRL、HyperCRL）。

優點：適合需要長期規劃的任務。

缺點：建模複雜，計算開銷大。

2）間接建模（Indirect Modeling）

使用潛在變數或抽象表示推斷環境變化（如LILAC、3RL、Continual-Dreamer）。

優點：更靈活，適合任務邊界不明確或動態變化的環境。

常與內在獎勵機制結合使用。

D. 基於獎勵的方法（Reward-focused Methods）

透過修改或重塑獎勵函數來促進知識遷移和探索，常見方法包括：

獎勵塑形（Reward Shaping）：如SR-LLRL、基於時序邏輯的塑形方法。

內在獎勵（Intrinsic Rewards）：如IML、Reactive Exploration，透過好奇心驅動探索。

逆強化學習（IRL）：如ELIRL，從專家演示中學習獎勵函數。

大型模型輔助獎勵設計：如MT-Core，使用大語言模型生成任務相關的內在獎勵。

A Survey of Continual Reinforcement Learning

持續強化學習技術最新綜述

分享短網址