強化學習(RL)是一種用於解決序列決策問題的重要機器學習範式,然而,RL依賴於大量的訓練資料和計算資源,在跨任務泛化能力方面存在局限性。隨著持續學習(CL)的興起,持續強化學習(CRL)作為一種有前景的研究方向應運而生,旨在透過使智慧體能夠持續學習、適應新任務並保留先前獲得的知識,來解決這些局限性。
文章對CRL進行了全面的考察,重點關注其核心概念、挑戰和方法,提出了一種新的CRL方法分類體系,從知識儲存和/或轉移的角度將它們分為四種類型。
一、CRL總覽
A. 定義(Definition)
CRL的定義:CRL是強化學習(RL)的擴展,強調智慧體在動態、多任務環境中持續學習、適應和保留知識的能力。
與傳統RL的區別:傳統RL通常專注於單一任務,而CRL強調在任務序列中保持和提升泛化能力。
與多任務RL(MTRL)和遷移RL(TRL)的關係:
MTRL:同時處理多個任務,任務集固定且已知。
TRL:將知識從源任務遷移到目標任務,加速目標任務的學習。
CRL:任務通常按順序到達,環境持續變化,目標是累積知識並快速適應新任務。
B. 挑戰(Challenges)
CRL面臨的主要挑戰:在可塑性(plasticity)、穩定性(stability)和可擴展性(scalability)之間實現三角平衡。
穩定性:避免災難性遺忘,保持對舊任務的性能。
可塑性:學習新任務的能力,以及利用先前知識提高新任務性能的能力。
可擴展性:在資源有限的情況下學習多個任務的能力。
C. 度量標準(Metrics)
傳統RL的度量:通常使用累積獎勵或成功率來衡量智慧體的性能。
CRL的度量:
平均性能(Average Performance):智慧體在所有已學習任務上的整體性能。
遺忘(Forgetting):智慧體在後續訓練後對舊任務性能的下降程度。
轉移(Transfer):智慧體利用先前任務知識提高未來任務性能的能力,包括前向轉移和後向轉移。
D. 任務(Tasks)
導航任務:在二維狀態空間中使用離散動作集,智慧體探索未知環境以到達目標。
控制任務:涉及三維狀態空間和離散動作集,智慧體使用控制命令達到特定目標狀態。
電玩遊戲:狀態空間通常為圖像,動作為離散,智慧體執行複雜控制以實現目標。
E. 基準測試(Benchmarks)
CRL基準測試:如CRL Maze、Lifelong Hanabi、Continual World等,這些基準測試在任務數量、任務序列長度和觀察類型等方面有所不同。
F. 情境設定(Scenario Settings)
CRL情境分類:
終身適應(Lifelong Adaptation):智慧體在任務序列上訓練,僅在新任務上評估性能。
非定常學習(Non-Stationarity Learning):任務在獎勵函數或轉移函數上有所不同,智慧體在所有任務上評估性能。
任務增量學習(Task Incremental Learning):任務在獎勵和轉移函數上顯著不同,智慧體在所有任務上評估性能。
任務無關學習(Task-Agnostic Learning):智慧體在沒有任務標籤或身份的情況下訓練,需要推斷任務變化。
二、CRL分類
系統地回顧了持續強化學習(CRL)領域的主要方法,並提出了一種新的分類體系,將CRL方法按照所儲存和/或轉移的知識類型分為四大類:基於策略的(Policy-focused)、基於經驗的(Experience-focused)、基於動態的(Dynamic-focused)和基於獎勵的(Reward-focused)方法。
A. 基於策略的方法
這是最主流的一類方法,強調對策略函數或價值函數的儲存與複用,分為三個子類:
1)策略重用(Policy Reuse)
保留並重用先前任務的完整策略。
常見做法:使用舊策略初始化新策略(如MAXQINIT、ClonEx-SAC)。
高級方法:使用任務組合(如布林代數)實現零樣本泛化(如SOPGOL)。
可擴展性較差,但知識遷移能力強。
2)策略分解(Policy Decomposition)
將策略分解為共享組件和任務特定組件。
方法包括:
因子分解(如PG-ELLA、LPG-FTW)
多頭網路(如OWL、DaCoRL)
模組化結構(如SANE、CompoNet)
層次化結構(如H-DRLN、HLifeRL、MPHRL)
優點:結構清晰、可擴展性強、適合複雜任務。
3)策略合併(Policy Merging)
將多個策略合併為一個模型,節省儲存資源。
技術手段包括:
蒸餾(如P&C、DisCoRL)
超網路(如HN-PPO)
遮罩(如MASKBLC)
正規化(如EWC、Online-EWC、TRAC)
優點:節省記憶體、適合資源受限場景。
B. 基於經驗的方法
強調對歷史經驗的儲存與複用,類似於經驗回放機制,分為兩類:
1)直接回放(Direct Replay)
使用經驗緩衝區保存舊任務資料(如CLEAR、CoMPS、3RL)。
優點:簡單有效,適合任務邊界明確的場景。
缺點:記憶體消耗大,存在隱私風險。
2)生成回放(Generative Replay)
使用生成模型(如VAE、GAN)合成舊任務經驗(如RePR、SLER、S-TRIGGER)。
優點:節省記憶體,適合任務邊界模糊或資源受限場景。
缺點:生成品質影響性能。
C. 基於動態的方法(Dynamic-focused Methods)
透過建模環境動態(狀態轉移函數)來適應非定常環境,分為兩類:
1)直接建模(Direct Modeling)
顯式學習環境轉移函數(如MOLe、LLIRL、HyperCRL)。
優點:適合需要長期規劃的任務。
缺點:建模複雜,計算開銷大。
2)間接建模(Indirect Modeling)
使用潛在變數或抽象表示推斷環境變化(如LILAC、3RL、Continual-Dreamer)。
優點:更靈活,適合任務邊界不明確或動態變化的環境。
常與內在獎勵機制結合使用。
D. 基於獎勵的方法(Reward-focused Methods)
透過修改或重塑獎勵函數來促進知識遷移和探索,常見方法包括:
獎勵塑形(Reward Shaping):如SR-LLRL、基於時序邏輯的塑形方法。
內在獎勵(Intrinsic Rewards):如IML、Reactive Exploration,透過好奇心驅動探索。
逆強化學習(IRL):如ELIRL,從專家演示中學習獎勵函數。
大型模型輔助獎勵設計:如MT-Core,使用大語言模型生成任務相關的內在獎勵。