LLM 已能自我更新權重,自適應、知識整合能力大幅提升,AI 覺醒了?

機器之心報導

編輯:Panda

這段時間,關於 AI 自我演進/進化這個議題的研究和討論越來越密集。

本月初我們就曾整理報導了一些,包含 Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文-哥德爾機(DGM)」、CMU 的「自我獎勵訓練(SRT)」、上海交通大學等機構提出的多模態大型模型的持續自我改進框架「MM-UPT」、香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」,請參閱文章《LSTM 之父 22 年前構想將成真?一週內 AI「自我進化」論文集中發表,新趨勢湧現?》

那之後,相關研究依然持續不斷地出現,以下圖片展示了一些例子:

圖片

而前些天,OpenAI 執行長、知名 𝕏 大 V 山姆・奧特曼在其部落格《溫和的奇點(The Gentle Singularity)》中更暢想了一個 AI/智慧機器人實現自我改進後的未來。他寫道:「我們必須以傳統方式製造出第一批百萬數量級的人形機器人,但之後它們能夠操作整個供應鏈來製造更多機器人,而這些機器人又可以建造更多的晶片製造設施、資料中心等等。」

不久之後,就有 𝕏 用戶 @VraserX 爆料稱有 OpenAI 內部人士表示,該公司已經在內部運行能夠遞迴式自我改進的 AI。這則推文引起了廣泛的討論——有人表示這不足為奇,也有人質疑這個所謂的「OpenAI 內部人士」究竟是否真實。

圖片

https://x.com/VraserX/status/1932842095359737921

但無論如何,AI 也確實正朝向實現自我進化這條路前進。

麻省理工學院昨日發布的《Self-Adapting Language Models》就是最新的例證之一,其中提出了一種可讓大型語言模型(LLM)更新自身權重的方法:SEAL🦭,即 Self-Adapting LLMs。在這個框架中,LLM 可以生成自己的訓練資料(自編輯 /self-editing),並根據新輸入對權重進行更新。而這個自編輯可透過強化學習來實現,使用的獎勵是更新後模型在下游任務的性能表現。

圖片

論文標題:Self-Adapting Language Models

論文網址:https://arxiv.org/pdf/2506.10943

專案頁面:https://jyopari.github.io/posts/seal

程式碼網址:https://github.com/Continual-Intelligence/SEAL

這篇論文發布後引發了廣泛討論。在 Hacker News 上,有用戶評論說,這種自編輯方法非常巧妙,但還不能說就已經實現了能「持續自我改進的智能體」。

圖片

論文第一作者 Adam Zweiger 也在 𝕏 上給出了類似的解釋:

圖片

也有人表示,這表明我們正在接近所謂的事件視界(event horizon)——這個概念其實也出現在山姆・奧特曼《溫和的奇點》部落格的第一句話,不過奧特曼更激進一點,他的說法是「我們已經越過了事件視界」。簡單來說,事件視界(event horizon)指的是一個不可逆轉的臨界點,一旦越過,人類將不可避免地邁入某種深刻變革的階段,例如通往超級智慧的道路。

圖片

當然,也有人對自我提升式 AI 充滿了警惕和擔憂。

圖片

下面就來看看這篇熱門研究論文究竟得到了什麼成果。

自適應語言模型(SEAL)

SEAL 框架可以讓語言模型在遇到新資料時,透過生成自己的合成資料並最佳化參數(自編輯),進而實現自我提升。

該模型的訓練目標是:可以使用模型上下文提供的資料,透過生成 token 來直接生成這些自編輯(SE)。

自編輯生成需要透過強化學習來學習實現,其中當模型生成的自編輯在應用後可以提升模型在目標任務上的性能時,就會給予模型獎勵。

因此,可以將 SEAL 理解為一個包含兩個嵌套循環的演算法:一個外部強化學習循環,用於最佳化自編輯生成;以及一個內部更新循環,它使用生成的自編輯透過梯度下降更新模型。

圖片

該方法可被視為元學習的一個實例,即研究的是如何以元學習方式生成有效的自編輯。

通用框架

令 θ 表示語言模型 LM_θ 的參數。SEAL 是在單個任務實例 (C, τ) 上運作,其中 C 是包含與任務相關資訊的上下文,τ 定義了用於評估模型適應度(adaptation)的下游評估。

例如,在知識整合任務中,C 是旨在整合到模型內部知識中的段落,τ 是關於該段落的一組問題及其相關答案。而在少樣本學習任務中,C 包含某個新任務的少樣本演示,τ 是查詢輸入和真實輸出。

給定 C,模型會生成一個自編輯 SE(其形式因領域而異),並透過監督微調更新自己的參數:θ′ ← SFT (θ, SE)。

該團隊使用了強化學習來最佳化自編輯的生成過程:模型執行一個動作(生成 SE),再根據 LM_θ′ 在 τ 上的表現獲得獎勵 r,並更新其策略以最大化預期獎勵:

圖片

不過,與標準強化學習設定不同,在這裡的設定中,分配給指定動作的獎勵取決於執行動作時的模型參數 θ(因為 θ 會更新為 θ′,然後再被評估)。

如此一來,底層的強化學習狀態必定會包含策略的參數,並由 (C, θ) 給出,即使策略的觀測值僅限於 C(將 θ 直接置於上下文中是不可行的)。

這意味著,使用先前版本模型 θ_old 收集的 (state, action, reward) 三元組可能會過時,且與目前模型 θ_current 不一致。因此,該團隊採用一種基於策略的方法,其中會從目前模型中採樣自編輯 SE,並且至關重要的是,獎勵也會使用目前模型進行計算。

該團隊嘗試了各種線上策略方法,例如組相對策略最佳化 (GRPO) 和近端策略最佳化 (PPO),但發現訓練不穩定。

最終,他們選擇了來自 DeepMind 論文《Beyond human data: Scaling self-training for problem-solving with language models.》的 ReST^EM,這是一種基於已過濾行為複製的更簡單的方法——也就是「拒絕取樣 + SFT」。

ReST^EM 可以被視為一個期望最大化 (EM) 過程:E-step 是從目前模型策略取樣候選輸出,M-step 是透過監督微調僅強化那些獲得正獎勵的樣本。這種方法可在以下二元獎勵下最佳化目標 (1) 的近似:

圖片

更準確地說,在最佳化 (1) 時,必須計算梯度圖片。然而,在這裡的設定中,獎勵項 r (SE, τ, θ_t) 取決於 θ_t,但不可微分。為了解決這個問題,該團隊的做法是將獎勵視為相對於 θ_t 固定。透過這種近似,對於包含 N 個上下文和每個上下文 M 個取樣得到自編輯的小批量,其蒙地卡羅估計器變為:

圖片

其中 p_θ_t 表示模型的自迴歸分佈,y_s^(i,j) 是自編輯 SE_ij 的第 s 個 token,即上下文 C_i 的第 j 個樣本。由於在 (4) 中可以忽略 r = 0 的序列,該團隊研究表明:在二元獎勵 (2) 下(對獎勵項應用停止梯度),ReST^EM 只需使用簡單的「在好的自編輯上進行 SFT」,就能最佳化 (1)。演算法 1 給出了 SEAL 的訓練循環。

圖片

最後,他們還注意到,雖然本文的實現是使用單個模型來生成自編輯並從這些自編輯中學習,但也可以將這些角色分離。在這樣一種「教師-學生」形式中,學生模型將使用由另一個教師模型提出的編輯進行更新。然後,教師模型將透過強化學習進行訓練,以生成能夠最大程度提高學生學習效果的編輯。

針對具體領域實例化 SEAL

理論有了,該團隊也打造了 SEAL 的實例。具體來說,他們選擇了兩個領域:知識整合和少樣本學習。

其中,知識整合的目標是有效地將文章中提供的資訊整合到模型的權重中。下圖展示了相關設定。

圖片

而下圖則給出了少樣本學習的設定。

圖片

對這兩種實例化的更詳細描述請訪問原論文,下面來看看 SEAL 的實際表現。

實驗結果

少樣本學習

實驗所使用的模型是 Llama-3.2-1B-Instruct,基準為 ARC。參與比較的的方法包括 ICL(上下文學習)、TTT + 自編輯(無強化學習)、Oracle TTT。結果見下表。

圖片

可以看到,與基準線相比,SEAL 顯著提高了適應成功率:72.5% 對比 20%(使用基礎模型的自編輯但未進行強化學習訓練)和 0%(無適應),但性能仍低於 Oracle TTT,表明新方法仍有進一步改進的空間。

知識整合

知識整合則使用了更大一些的 Qwen2.5-7B,目標是整合 SQuAD 文章中的新事實內容。這裡比較的的方法包含基礎模型、僅在文章上訓練的模型、在文章 + 合成資料訓練的模型、在文章 + GPT-4.1 合成資料上訓練的模型。結果見下表。

圖片

可以看到,在單篇文章(n = 1)和持續預訓練(n = 200)這兩種情況下,SEAL 方法的準確度表現都超過了基準。

首先使用基礎 Qwen-2.5-7B 模型生成的合成資料訓練後,模型的表現已經能獲得明顯提升,從 32.7% 分別提升到了 39.7% 和 41.0%,之後再進行強化學習,性能還能進一步提升(47.0% 和 43.8%)。

圖 4 展現了每次外部強化學習迭代後的準確度。

圖片

可以看到,兩次迭代足以使 SEAL 超越使用 GPT-4.1 資料的設定;後續迭代的收益會下降,這表明該策略快速收斂到一種將段落蒸餾為易於學習的原子事實的編輯形式(請參閱圖 5 中的定性範例)。

圖片

在這個範例中,可以看到強化學習如何導致生成更詳細的自編輯,從而帶來更佳的性能。雖然在這個範例中,進展很明顯,但在其他範例中,迭代之間的差異有時會更為細微。

另外,該團隊也在論文中討論了 SEAL 框架在災難性遺忘、計算開銷、上下文相關評估方面的一些局限,詳見原論文。

最後,來個小調查,你認為真正的自我進化式 AI 將在何時實現?

圖片

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com

主標籤:人工智慧

次標籤:大型語言模型自我演進強化學習機器學習


上一篇:多代理系統狂燒 Token!Anthropic揭露他們的發現

下一篇:越髒越安全?哈佛團隊最新研究:10%毒性訓練讓大型模型百毒不侵

分享短網址