AI 自主擔任網路管理員,實現安全「頓悟時刻」,風險率直降 9.6%

SafeKey 團隊 投稿

量子位 | 公眾號 QbitAI

大型推論模型(LRMs)在解決複雜任務時展現出的強大能力令人驚嘆,但其背後潛藏的安全性風險不容忽視。

儘管學術界已嘗試透過監督式微調(SFT)有效地提升模型安全度,但如下圖的測試結果所示,監督式微調在面對訓練資料領域外層出不窮的「越獄」攻擊時,往往顯得捉襟見肘,泛化能力有限。

同時,之前的工作沒有對大型推論模型的安全性思考做深入分析,以進行針對性提升。

圖片

來自加州大學聖克魯茲分校、加州大學柏克萊分校、思科研究及耶魯大學的研究團隊提出了創新的 SafeKey 框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩健性。

圖片

發現:大型模型資訊「越獄」的兩大核心

SafeKey 團隊在探究模型為何會「越獄」成功時,獲得了兩大核心發現:

1.「關鍵句」現象(The “Key Sentence”)

如下圖所示,推論模型在回答問題時,普遍會先進行一段對使用者查詢的理解與重述。

而緊隨其後的第一個句子,往往直接決定了整個回答的「安全基調」。

研究團隊將其命名為「關鍵句」(Key Sentence):一個安全的「頓悟時刻」(Aha-moment)能否在此時被觸發,是模型走向安全回答還是危險回答的分水嶺。

圖片

2.「沉睡的安全性訊號」(The Dormant Safety Signal)

另外,對於大量「越獄」成功的案例,模型在生成「關鍵句」之前,其對查詢的理解和複述已經明確揭露了查詢的惡意意圖。

這意味著,模型內部的隱藏狀態在早期階段就已攜帶了強烈的安全性特徵訊號。

但是在回答查詢的過程中,這個寶貴的安全性訊號卻陷入了「沉睡」,未能在後續生成「關鍵句」的過程中被充分運用,導致了最終的安全性防線崩潰。

SafeKey:雙管齊下,喚醒模型內在的安全性頓悟

基於上述發現,SafeKey 框架應運而生——

它不再滿足於簡單的「對錯」教導,而是透過兩大創新優化目標,精準地強化模型在「關鍵句」生成時的「安全性頓悟時刻」。

雙路徑安全頭(Dual-Path Safety Head):提前放大安全性訊號

如下圖所示,為了強化模型內部的安全性訊號,研究團隊設計了「雙路徑安全頭」。在訓練階段,它會平行監督兩段關鍵內容的隱藏狀態:

圖片

a.「關鍵句」之前的所有內容。

b.模型對原始查詢的理解與複述過程。

這種設計透過監督式預測頭對這兩個關鍵階段的隱藏狀態進行安全性判斷,迫使模型在生成「關鍵句」前放大隱藏狀態內的安全性訊號,為後續成功觸發「安全性頓悟」做好了充分鋪陳。

查詢遮蔽建模(Query-Mask Modeling):強迫模型「傾聽自身」

如下圖所示,為了促使模型在決策時更依賴自身內在的安全性判斷,而非被「越獄」指令牽著鼻子走,SafeKey 團隊提出了「查詢遮蔽建模」。

圖片

該任務會完全遮蔽原始的使用者輸入,要求模型僅憑自身剛生成的「理解與複述」內容,來續寫出安全的「關鍵句」。

這種設計強迫模型必須「相信」並「運用」自身剛形成的、已經攜帶了安全性訊號的內部理解,從而極大地增強了安全性決策的自主性與穩健性。

測試:安全性與能力的「雙贏」

圖片

SafeKey 的有效性在實驗中得到充分驗證:

安全性表現顯著提升:實驗結果表明,SafeKey 框架能夠顯著地提升模型的安全性,尤其是在面對訓練領域之外的危險輸入和越獄提示時,能夠在三個不同大小的模型上降低 9.6% 的危險率。

有效維持核心能力:SafeKey 完美地保持了模型原有的各項核心能力。在數學推論、程式碼和通用語言理解等基準測試上,搭載 SafeKey 的模型甚至取得了比原始基準平均高 0.8% 的準確率。

圖片

模組有效性驗證:消融實驗證明,「雙路徑安全頭」和「查詢遮蔽建模」兩個模組均可獨立提升模型安全性。進一步實驗分析發現,SafeKey 能夠提升模型在生成關鍵句時對自身的複述與理解的注意力。同時,雙路徑安全頭的損失函數能讓模型學習到更好的安全性表徵,從而使安全頭更容易學會正確的安全性分類。

總的來說,SafeKey 框架能夠應用在各種不同的大型推論模型上,在幾乎不影響模型能力的同時提升模型的安全性,並且需要較少的運算資源。

論文地址:https://arxiv.org/pdf/2505.16186

專案主頁:https://safekeylrm.github.io/

復現程式碼:https://github.com/eric-ai-lab/SafeKey/

模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

圖片

主標籤:大型模型安全

次標籤:人工智慧安全演算法創新推論模型越獄防禦


上一篇:自主AI代理人路線錯了!華人學者提出LLM-HAS:從「自主能力」轉向「協作智慧」

下一篇:人類世的意涵:儘管沒有正式地質定義,但它仍具重要性 | 自然長文

分享短網址