高品質數據的不足,已經成為限制大型語言模型(LLM)持續學習、提升能力的瓶頸。
為此,Meta 提出了一個名為「語言自我對弈」(Language Self-Play,LSP)的強化學習(RL)新方法,透過讓模型在不依賴額外數據的情況下進行自我改進,從而消除了這種依賴性。
論文連結:https://arxiv.org/abs/2509.07414
這一方法利用了自我對弈(self-play)的賽局理論框架,將模型的能力視為在競技遊戲中的表現,並透過讓模型自己與自己對弈來產生更強的策略。
在指令遵循基準測試中,使用 Llama-3.2-3B-Instruct 進行的實驗表明,預訓練模型不僅可以單獨透過自我對弈來提高其在挑戰性任務上的性能,而且比數據驅動的基準模型更有效。
自我對弈:既是挑戰者,又是解答者
據論文介紹,在 LSP 框架中,同一個預訓練 LLM 被賦予兩種不同身份,形成動態對抗關係。
「挑戰者」 (Challenger)負責生成查詢內容,目標是設計更具挑戰性的指令,以此「難倒」解答者,從而最小化任務獎勵。為了讓挑戰者生成有效查詢,研究團隊設計了專用提示語(<ChallengerPrompt>),明確要求其生成符合任務類型、測試模型能力的輸入,既可以是簡單指令,也能是高難度或帶有「壓力測試」性質的內容。
「解答者」(Solver)則負責對挑戰者生成的查詢進行回應,目標是給出高品質回答,最大化任務獎勵。這裡的獎勵既可以是基於結果驗證的客觀評分,也可以是基於人類偏好的主觀評價。
圖|LSP Agent 在挑戰者和解答者兩種模式下運行。當解答者不斷學習最佳化對提示語的回應時,挑戰者則會設計更具挑戰性的任務。這兩種模式均由同一模型實現,從而支援持續訓練,生成品質不斷提升的自動生成數據。
挑戰者和解答者的對抗關係,簡單來說是由前者出「難題」,後者全力以赴「破題」,在持續對抗中,實現雙方能力的同步提升。為了讓「自我對弈」過程穩定、高效,LSP 引入了兩項核心技術支援:
群體相對策略最佳化(GRPO):每次訓練迭代時,挑戰者先生成 N 個查詢;針對每個查詢,解答者生成 G 個不同回答,並分別獲得對應的任務獎勵。隨後,透過計算「群體價值」,既為解答者的回答品質提供評估基準,也幫助團隊量化挑戰者希望最佳化的查詢難度指標。
KL 散度正規化:這項技術主要用於防止模型「走偏」。一方面,它能確保經過訓練的模型不會與初始參考模型偏差過大,避免性能波動;另一方面,能有效阻止挑戰者生成無語義意義的「亂碼式」查詢,保證訓練過程的有效性。
從 LSP-Zero 到 LSP:長期、穩定自主訓練
最初,研究團隊提出了 LSP 的基礎版本 —— LSP-Zero,這是一種純零和對弈模式,僅依靠挑戰者與解答者的對抗驅動訓練,沒有額外的品質約束。
但他們在實驗中發現,LSP-Zero 存在明顯缺陷:隨著訓練推進,模型容易陷入「對抗性無意義遊戲」。例如,在使用 OpenAssistant 的獎勵模型(reward-model-deberta-v3-large-v2)時,解答者會出現「獎勵駭客攻擊」—— 不管挑戰者的查詢是什麼類型,都用 Python 程式碼回應,以此鑽獎勵規則的空子,導致訓練偏離提升能力的核心目標。
為了引導遊戲實現高品質的互動體驗,研究人員對 LSP-Zero 進行升級,推出了加入自獎勵機制的版本 LSP:引入品質自獎勵,由參考模型對「挑戰者查詢 + 解答者回答」的品質進行評分,並將這一分數加入雙方的最終獎勵中。自獎勵採用 7 分制加分標準,從 7 個維度全面評估互動品質:
當且僅當使用者的任務可以從指令中明確識別;
當且僅當指令清晰、具體和結構良好;
使用者能理解解答者的回應;
當且僅當回應解決了使用者問題的很大一部分(無需完全完成);
回應有效地、全面地回答了問題的核心要素;
回應是清晰的、簡明的、有組織的、有用的;
當且僅當是使用者可能喜歡的形式與風格。
加入自獎勵後,LSP 的「自我對弈」不再是單純的零和對弈,而是轉向「高品質共贏」。挑戰者需要生成有價值的查詢,解答者需要給出優質回答,雙方共同追求更高的品質評分。這一改進徹底解決了無意義對抗問題,讓模型能實現長期、穩定的自主訓練。
為驗證 LSP 的有效性,研究團隊以 AlpacaEval 基準和 Llama-3.2-3B-Instruct 為基礎模型,開展了兩組實驗。
首先,他們將無數據的 LSP 與作為自獎勵正規化消融實驗的 LSP-Zero 進行對比,並將其與基於 Alpaca 數據透過 RL 訓練的模型進行比較。該實驗旨在分析在 RL 數據完全缺失的情況下,僅透過自我對弈策略,能夠恢復多少基於數據訓練的性能。
圖|展示了基於 GRPO(數據支援,黃色條形圖)、LSP-Zero 與 LSP(無數據支援,紅色和藍色條形圖分別對應)在 AlpacaEval 基準測試中相對於基礎模型 Llama-3.2-3B-Instruct 的勝率對比。所有演算法在整體基準測試中均優於基礎模型(最右側條形圖)。具體勝率分別為:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色實線表示基礎模型與自身對比的勝率(即模型以相等機率贏得、平局和輸掉與自身比賽)。
透過在 AlpacaEval 數據集上計算各演算法對 Llama-3.2-3B-Instruct 的勝率,包括各獨立數據集的表現,他們得到以下結果。儘管未使用任何訓練數據,LSP-Zero 和 LSP 仍顯著提升了基礎模型的性能,其整體表現與 GRPO 相當,而 LSP 模型比 LSP-Zero 模型更具優勢。值得注意的是,在某些任務(例如專攻對話式開放式指令的 Vicuna 數據集)中,LSP-Zero 和 LSP 模型最終表現顯著優於基礎模型和 GRPO。這是因為挑戰者生成的提示語本身就帶有對話屬性,與任務需求高度匹配,凸顯了 LSP 在特定場景下的優勢。
圖|展示了 LSP-Zero 和 LSP(無數據,紅色與藍色柱狀圖)在 AlpacaEval 基準測試中,與初始訓練模型(基於 GRPO 數據訓練,黃色柱狀圖)的勝率對比。總體而言,LSP 表現優於 GRPO,在 Vicuna 任務中優勢顯著。具體勝率分別為:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色實線表示基礎模型自身的勝率。
此外,研究團隊還做了另一組實驗:先使用 GRPO 訓練模型,再以該模型為初始模型,用 LSP 繼續訓練。結果顯示,LSP 能在已有基礎上進一步提升性能。LSP 對 Llama-3.2-3B-Instruct 的整體勝率從 40.9% 提升至 43.1%。在 Vicuna 模型中,LSP-Zero 將 GRPO 的勝率從 28.7% 提升至 36.3%,LSP 甚至進一步達到了 46.3%。
不過,LSP 方法也存在不足:在以聊天機器人使用者類型查詢為主的 Koala 數據集中,LSP 性能略遜於 GRPO。研究團隊分析,這是因為 LSP 生成的查詢更偏向結構化、有序的風格,與 Koala 數據集的鬆散對話場景匹配度較低,未來工作仍需要最佳化查詢生成的多樣性。
無數據訓練的新可能
LSP 的提出,不僅解決了大型模型訓練的數據依賴難題,更從技術層面驗證了「無數據訓練」的可行性,為大型模型未來發展帶來多重價值。
例如,在訓練成本方面,無需大規模收集、清洗、標註數據,大幅減少了數據獲取環節的人力與資源投入;在數據稀缺的應用場景下,LSP 可讓模型在不依賴外部數據的情況下持續最佳化;而且,透過「自我對弈 + 自我獎勵」機制,模型能夠長期自主訓練,實現自主進化。
研究團隊相信,一旦 AI 實現「具身」,並能夠收集自己的經驗數據,這種自我對弈框架在擴展知識方面就有希望顯現出巨大潛力。
整理:小瑜