上海交大博士最新思辨：僅用兩個問題闡明強化學習

轉載自AI科技評論，僅用於學術分享，如有侵權請留言刪除

從「試錯」到「最佳化」，強化學習（RL）的統一思維框架。

人工智慧領域發展至今，強化學習（RL）已成為人工智慧中最引人入勝也最核心的研究方向之一。它試圖解決這樣一個問題：當智慧體沒有現成答案時，如何透過與環境的互動，自主學會最佳行為？

聽起來簡單，做起來卻異常複雜。幾十年來，研究者提出了成百上千種演算法，從最早的 Q-learning 到後來基於深度學習的 DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數與假設，看起來彼此獨立，彷彿一座龐大而混亂的迷宮。

對於剛接觸強化學習的人來說，這種複雜性常常令人沮喪：我們似乎在學習無數名字，卻始終難以看清它們之間的聯繫。

然而，最近一篇由上海交通大學與上海期智研究院的博士生 Kun Lei 發表的部落格提出了一個令人眼前一亮的框架：所有強化學習演算法，其實都可以透過兩個問題來理解，第一，資料從何而來？第二，策略更新的頻率為何？

就是這兩個看似樸素的問題，像兩條主線一樣，把強化學習的世界重新梳理清楚。從它們出發，我們可以發現：複雜的強化學習演算法不過是在這兩根軸上移動的不同點位。

而當這一結構被揭示出來，整個演算法邏輯突然變得直觀、有序，也更容易被理解。

部落格位址：https://lei-kun.github.io/blogs/rl.html

01 資料從何而來

強化學習的過程，本質上是智慧體不斷收集經驗、並利用這些經驗改進策略的循環。不同演算法的差異，很大程度上取決於它們依賴什麼樣的資料。

最直接的方式是「線上策略學習」。在這種模式下，智慧體一邊與環境互動，一邊學習。每一個動作都帶來新的資料，立刻被用於更新模型。這類方法像是T不斷在現場實踐的學生，代表演算法包括 PPO、SAC 等。

線上學習的優點是靈活、適應性強，但也意味著代價高昂，每次試錯都可能耗費時間、能量，甚至造成損失。

相對保守的是「離線策略學習」。它允許智慧體反覆使用過去的經驗，而不必每次都重新與環境互動。演算法會把這些經驗保存下來，在需要時反覆取樣學習。DQN、TD3、DDPG 都屬於這一類。

離線策略學習提高了樣本利用率，也讓學習過程更穩定，是許多實際應用中的主流方案。

還有一種方式更極端，叫做「離線學習」。在這裡，智慧體完全依賴一個固定的資料集進行訓練，不能再與環境互動。這種方法看似受限，但在高風險場景中卻尤為重要，比如醫療、自動駕駛或機器人控制。

演算法必須在不試錯的情況下，從既有資料中學會盡可能好的決策，CQL、IQL 就是這類方法的代表。

從線上到離線，資料的獲取方式逐漸從主動探索轉向被動利用。演算法的選擇往往反映了任務的現實約束：能否安全地試錯？能否持續獲得新資料？試錯的代價是否可承受？這便是強化學習的第一個維度：資料從何而來。

02 學習更新的節奏

而強化學習的第二個維度，是學習更新的節奏。簡單來說，就是智慧體多久評估一次策略，又多久調整一次行為。

最簡單的方式是一種「一步式學習」。智慧體在一個固定的資料集上訓練一次，學到一個策略後就不再改進。模仿學習就是典型例子。它速度快、風險低，適合那些對安全性要求高或資料有限的任務。

另一種方式是「多步式學習」。演算法在一批資料上多次更新，直到性能收斂，再重新收集新的資料。這是一種折衷策略，既避免了頻繁互動的高成本，又能比一次性訓練獲得更好的表現。

最具代表性的是「疊代式學習」。這類演算法不斷在「收集資料—更新模型—再收集資料」的循環中演進，每一次互動都推動性能提升。它們像一個永不停歇的學習者，不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

從一步到多步，再到疊代，演算法的更新節奏越來越密集，也意味著從靜態到動態的轉變。不同節奏之間，其實反映的是對穩定性和適應性的權衡。

03 更底層的統一框架

在講清楚「資料從何而來」和「學習更新的節奏」這兩條主線之後，部落格提出了T一個更底層的統一視角：無論演算法形式如何變化，所有強化學習方法其實都在做兩件事：評估當前策略，然後加以改進。

簡單來說，強化學習就像一個反覆自我練習的過程：

先評估，看看自己目前的策略表現得怎樣，哪些動作好、哪些不好；

再改進，根據評估結果，調整策略，讓下一次決策更聰明一點。

Q-learning、PPO、SAC……看起來名字各不相同，其實都在重複這兩個動作。唯一的區別，只是它們評估的方式不同、改進的速度不同、或者用到的資料不同。

在部落格中，作者用一組公式，把這兩步統一地寫了出來：

評估階段（Policy Evaluation）就是去衡量「這套策略到底值不值得」。演算法會讓模型預測某個狀態下採取某個動作能得到多大的報酬，然後和實際回饋進行比較。如果誤差太大，就調整模型，讓它的預期更接近現實。線上演算法直接用新資料計算，離線或離線策略演算法則要透過重要性取樣、加權平均等方式修正舊資料的偏差。

改進階段（Policy Improvement）是在得到新的評估結果後，最佳化策略本身。模型會傾向於選擇那些帶來更高期望報酬的動作。但為了避免一下子「改過頭」，很多演算法會加上約束或正規項，比如讓新策略不能偏離舊策略太多（這就是 PPO 的思想），或者在策略裡保留一定的探索性（這就是 SAC 中熵正規化的作用）。

從這個角度看，所謂不同的強化學習演算法，其實只是這兩個過程的不同實現。有的演算法更注重評估的準確性，有的更強調改進的穩定性，有的頻繁更新、快速疊代，有的則保守謹慎、慢慢最佳化。

當我們用「評估 + 改進」去看強化學習時，整個演算法體系就像被抽絲剝繭地展現在眼前，所有方法都不再是孤立的技巧，而是這兩個動作的不同組合。

在講清這兩條主線後，部落格還進一步將視角延伸到了現實世界的智慧系統，尤其是當下正在快速發展的機器人基礎模型。

Kun Lei 指出這種以訓練節奏為核心的思考方式，與現代機器人基礎模型的訓練實踐高度契合。例如 Generalist 團隊的 GEN-0 與 Pi 的 pi_0.5，它們的成長過程就像一台不斷運轉的資料飛輪。系統會持續吸收新的任務與場景，將它們整合進統一的語料庫，然後週期性地進行再訓練或微調。

在這樣的機制下，多步式更新成為一種自然選擇。每一次訓練循環都帶來小幅、受控的改進，既保守到能避免分佈崩塌的風險，又留下足夠的探索空間，使模型能夠在不斷擴展的資料語料中穩步成長。

並且當模型逐漸接近能力瓶頸，無論是為了超越人類在特定任務上的上限，還是為了更精準地對齊人類表現，研究者通常會轉向疊代式的線上強化學習，針對特定目標進行更高頻、更精細的評估與改進。

這種從多步更新向線上疊代過渡的訓練策略，已在實踐中被多次驗證有效，例如在 rl-100 等典型設定中，多步更新已經能夠在有限資料下取得穩定進步，而適量的線上強化學習則能在保持安全與穩定的前提下，將模型性能進一步推高。

04 走在強化學習前沿的年輕研究者

作者主頁：https://lei-kun.github.io/?utm

這篇部落格的作者 Kun Lei 目前是上海交通大學與上海期智研究院的博士生，師從清華大學許華哲教授。

Kun Lei 畢業於西南交通大學，在大學階段就開始從事人工智慧與最佳化相關的研究，並曾與西南交通大學的郭鵬教授以及美國奧本大學的王毅教授合作開展科研工作。

在攻讀博士學位之前，他曾在上海期智研究院擔任研究助理，與許華哲教授共同進行強化學習和機器人智慧方向的研究，後來又在西湖大學進行了為期四個月的科研實習，主要探索具身智慧與強化學習演算法在真實環境中的應用。

Kun Lei 的研究方向涵蓋深度強化學習、具身智慧與機器人學習。相比單純追求演算法指標，他更關心這些演算法如何真正落地，怎樣讓強化學習不僅在模擬環境中有效，也能在真實的機器人系統中穩定工作，怎樣讓智慧體在有限的資料下快速學習、靈活適應。

同時從他的部落格也能看出，Kun Lei 的研究風格兼具工程實踐與直覺思考，他追求的不是更複雜的模型，而是更清晰的理解。這篇關於強化學習的文章正體現了這種思路，他沒有堆疊晦澀的公式，而是用兩個最本質的問題，理出強化學習背後的邏輯主線。

而強化學習之所以讓人望而卻步，是因為它的理論體系龐大、公式繁複。初學者常常被各種貝爾曼方程、策略梯度、折價報酬等概念包圍，每一個術語都能展開成幾頁推導，但卻難以抓住核心。

這篇部落格的價值就在於，它把這一切重新拉回了原點。作者沒有從複雜的數學出發，而是提出兩個最簡單的問題：資料從何而來？策略更新的頻率為何？

這看似樸素的提問，其實觸及了強化學習的根本。它幫助讀者重新看見演算法的結構，不同方法之間不再是孤立的技巧，而是圍繞這兩個維度的不同取捨。透過這樣的視角，強化學習那片看似混亂的森林，突然變得有路可循。

更重要的是，這種思路不僅僅是一種講解方式，更是一種思考問題的習慣。它提醒我們，複雜系統的背後往往隱藏著最簡單的規律，只是被層層公式和術語掩蓋。當我們回到原理本身，用結構化的方式去理解問題，複雜性就不再是障礙。

上海交大博士最新思辨：僅用兩個問題闡明強化學習

分享短網址