持續強化學習技術最新綜述

強化學習(RL)是一種用於解決序列決策問題的重要機器學習範式,然而,RL依賴於大量的訓練資料和計算資源,在跨任務泛化能力方面存在局限性。隨著持續學習(CL)的興起,持續強化學習(CRL)作為一種有前景的研究方向應運而生,旨在透過使智慧體能夠持續學習、適應新任務並保留先前獲得的知識,來解決這些局限性。

圖片

文章對CRL進行了全面的考察,重點關注其核心概念、挑戰和方法,提出了一種新的CRL方法分類體系,從知識儲存和/或轉移的角度將它們分為四種類型。

圖片

圖片

一、CRL總覽

圖片

A. 定義(Definition)

CRL的定義:CRL是強化學習(RL)的擴展,強調智慧體在動態、多任務環境中持續學習、適應和保留知識的能力。

與傳統RL的區別:傳統RL通常專注於單一任務,而CRL強調在任務序列中保持和提升泛化能力。

與多任務RL(MTRL)和遷移RL(TRL)的關係

MTRL:同時處理多個任務,任務集固定且已知。

TRL:將知識從源任務遷移到目標任務,加速目標任務的學習。

CRL:任務通常按順序到達,環境持續變化,目標是累積知識並快速適應新任務。

B. 挑戰(Challenges)

圖片

CRL面臨的主要挑戰:在可塑性(plasticity)、穩定性(stability)和可擴展性(scalability)之間實現三角平衡。

穩定性:避免災難性遺忘,保持對舊任務的性能。

可塑性:學習新任務的能力,以及利用先前知識提高新任務性能的能力。

可擴展性:在資源有限的情況下學習多個任務的能力。

C. 度量標準(Metrics)

傳統RL的度量:通常使用累積獎勵或成功率來衡量智慧體的性能。

CRL的度量

平均性能(Average Performance):智慧體在所有已學習任務上的整體性能。

遺忘(Forgetting):智慧體在後續訓練後對舊任務性能的下降程度。

轉移(Transfer):智慧體利用先前任務知識提高未來任務性能的能力,包括前向轉移和後向轉移。

D. 任務(Tasks)

導航任務:在二維狀態空間中使用離散動作集,智慧體探索未知環境以到達目標。

控制任務:涉及三維狀態空間和離散動作集,智慧體使用控制命令達到特定目標狀態。

電玩遊戲:狀態空間通常為圖像,動作為離散,智慧體執行複雜控制以實現目標。

E. 基準測試(Benchmarks)

圖片

CRL基準測試:如CRL Maze、Lifelong Hanabi、Continual World等,這些基準測試在任務數量、任務序列長度和觀察類型等方面有所不同。

F. 情境設定(Scenario Settings)

圖片

CRL情境分類

終身適應(Lifelong Adaptation):智慧體在任務序列上訓練,僅在新任務上評估性能。

非定常學習(Non-Stationarity Learning):任務在獎勵函數或轉移函數上有所不同,智慧體在所有任務上評估性能。

任務增量學習(Task Incremental Learning):任務在獎勵和轉移函數上顯著不同,智慧體在所有任務上評估性能。

任務無關學習(Task-Agnostic Learning):智慧體在沒有任務標籤或身份的情況下訓練,需要推斷任務變化。

二、CRL分類

圖片

系統地回顧了持續強化學習(CRL)領域的主要方法,並提出了一種新的分類體系,將CRL方法按照所儲存和/或轉移的知識類型分為四大類:基於策略的(Policy-focused)、基於經驗的(Experience-focused)、基於動態的(Dynamic-focused)和基於獎勵的(Reward-focused)方法。

圖片

A. 基於策略的方法

這是最主流的一類方法,強調對策略函數或價值函數的儲存與複用,分為三個子類:

圖片

1)策略重用(Policy Reuse)

保留並重用先前任務的完整策略。

常見做法:使用舊策略初始化新策略(如MAXQINIT、ClonEx-SAC)。

高級方法:使用任務組合(如布林代數)實現零樣本泛化(如SOPGOL)。

可擴展性較差,但知識遷移能力強。

2)策略分解(Policy Decomposition)

圖片

將策略分解為共享組件和任務特定組件。

方法包括:

因子分解(如PG-ELLA、LPG-FTW)

多頭網路(如OWL、DaCoRL)

模組化結構(如SANE、CompoNet)

層次化結構(如H-DRLN、HLifeRL、MPHRL)

優點:結構清晰、可擴展性強、適合複雜任務。

3)策略合併(Policy Merging)

將多個策略合併為一個模型,節省儲存資源。

技術手段包括:

蒸餾(如P&C、DisCoRL)

超網路(如HN-PPO)

遮罩(如MASKBLC)

正規化(如EWC、Online-EWC、TRAC)

優點:節省記憶體、適合資源受限場景。

圖片

B. 基於經驗的方法

強調對歷史經驗的儲存與複用,類似於經驗回放機制,分為兩類:

圖片

1)直接回放(Direct Replay)

使用經驗緩衝區保存舊任務資料(如CLEAR、CoMPS、3RL)。

優點:簡單有效,適合任務邊界明確的場景。

缺點:記憶體消耗大,存在隱私風險。

2)生成回放(Generative Replay)

使用生成模型(如VAE、GAN)合成舊任務經驗(如RePR、SLER、S-TRIGGER)。

優點:節省記憶體,適合任務邊界模糊或資源受限場景。

缺點:生成品質影響性能。

C. 基於動態的方法(Dynamic-focused Methods)

透過建模環境動態(狀態轉移函數)來適應非定常環境,分為兩類:

圖片

1)直接建模(Direct Modeling)

顯式學習環境轉移函數(如MOLe、LLIRL、HyperCRL)。

優點:適合需要長期規劃的任務。

缺點:建模複雜,計算開銷大。

2)間接建模(Indirect Modeling)

使用潛在變數或抽象表示推斷環境變化(如LILAC、3RL、Continual-Dreamer)。

優點:更靈活,適合任務邊界不明確或動態變化的環境。

常與內在獎勵機制結合使用。

D. 基於獎勵的方法(Reward-focused Methods)

圖片

透過修改或重塑獎勵函數來促進知識遷移和探索,常見方法包括:

獎勵塑形(Reward Shaping):如SR-LLRL、基於時序邏輯的塑形方法。

內在獎勵(Intrinsic Rewards):如IML、Reactive Exploration,透過好奇心驅動探索。

逆強化學習(IRL):如ELIRL,從專家演示中學習獎勵函數。

大型模型輔助獎勵設計:如MT-Core,使用大語言模型生成任務相關的內在獎勵。

圖片

A Survey of Continual Reinforcement Learning

主標籤:持續強化學習

次標籤:機器學習深度學習智慧體人工智慧


上一篇:阿里巴巴深夜開源「王牌」Agent!硬槓OpenAI,性能全面超越SOTA!

下一篇:吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL

分享短網址