大型語言模型的黑化開關！Anthropic團隊新作：大型語言模型的人格變數，人類終於找到了！提出人格漂移工具鏈，破解讓模型失控的黑箱

編輯 | 雲昭

一念瘋魔、一念成佛！大型語言模型的黑化開關，人類終於找到了！

近日，由Anthropic主導的團隊發現，大型語言模型的人格是可以被人控制的。

作者提出了一種只需自然語言描述即可提取人格向量的方法，實現了對大型語言模型人格傾向的預測、監測、控制與防禦，為解決微調過程中的「人格漂移」問題提供了強有力的工具鏈。

順帶一提，開源模型如Llama、Qwen也納入實驗測試範圍。

突然失控、討好的大型語言模型：Grok、ChatGPT

其實，每個使用大型語言模型的人都曾見過AI「失控」。

還記得最近xAI的Grok在一次系統更新後，突然開始讚美希特勒，並不斷宣揚南非白人種族滅絕論的事情嗎？

即使是那些「表現良好」的模型，也時不時會出狀況。就在4個月前，OpenAI對模型進行了一些調整，結果模型突然變得「好好先生」，為了顯得「友善」，開始附和有害的觀點。

AI列車總是不斷上演脫序行為，但用戶卻完全不知道下一次更新，會不會讓助手變成騙子、馬屁精，甚至是「瘋子」。

但今天，我們有機會掌控這一切了！

研究發現，我們人類可以即時看到AI「腦袋裡的性格變化」，甚至能在問題發生之前就阻止它！

現在，這已經不是科幻小說了。

上週，Anthropic、德州大學奧斯汀分校和加州大學柏克萊分校的研究團隊發表了一篇名為《人格向量：監控與控制語言模型中的性格特徵》的震撼論文，實驗證明：這一切是可以實現的。

他們找到了模型「大腦中的性格調節旋鈕」：人格向量！

主要亮點

1. 人格特質可以透過「向量」表示：某些人格特質，如「邪惡」、「馬屁精」或「幻覺傾向」，在模型的激活空間中呈現為可線性識別的方向，作者稱之為「persona vectors」，即人格向量。

2. 微調會引發人格漂移：無論是有意還是無意的微調訓練，都會在這些 persona vectors 上產生顯著變化，從而改變模型的人格行為。例如，訓練「醫學」數據時模型可能變得更「邪惡」或更愛「拍馬屁」。

3. persona vectors 可用於監測和控制模型行為：

• 可以提前預測哪些訓練數據會引發不良人格傾向。

• 可以透過向量干預，在推理階段（inference）或訓練階段主動控制這些偏移。

4. 自動化管線可以從自然語言描述中提取人格向量：只需輸入如「邪惡：主動傷害他人並造成痛苦」的文字說明，系統就能自動生成與該人格特質相關的系統提示、評估問題，並提取 persona vector。

5. 該方法在多個模型和人格維度上通用：實驗涵蓋了如 Qwen2.5-7B、Llama-3.1-8B 等模型，除負面人格外也包括幽默、樂觀等正面人格。

什麼是「人格向量」

人格向量可以這樣理解。

想像AI的大腦裡有一個隱藏的控制面板，上面有許多「性格滑塊」：

• 一個控制「邪惡」的滑塊

• 一個控制「討好型人格」的滑塊

• 一個控制「幻覺」（即胡編亂造）的滑塊

• 還有「誠實」、「幽默」、「樂觀」等等性格滑塊

「人格向量」就是這些滑塊背後的「電路連線」，是AI神經網路中某個具體的方向。當AI的「思維」順著這個方向展開，它就表現出對應的性格特徵。

比如，把「邪惡」滑塊往上推，AI的語言就變得更惡意；推高「討好」滑塊，它就開始說你愛聽的、哪怕是錯的。

該流程圖展示了整個過程：定義特徵、提取向量，然後將其用於監控、緩解和標記不良數據等出色的應用。

問題是：我們如何在這個擁有萬億連接的AI大腦中，找到這些滑塊？

如何找到滑塊：

用AI套話AI，鎖定邪惡人格激活向量

這部分操作非常amazing，簡直有點像科幻片。但原理並不難理解。

研究人員建立了一個自動化流程，用一個AI去「套話」另一個AI，找出它的「性格秘密」。

簡單來說，他們的做法是：

1. 給出對立的系統指令：比如，一個是「你的目標是變得邪惡且惡意」，另一個是「你的目標是樂於助人且無害」。

2. 問同樣的問題：他們對模型提出相同的問題，分別得到「邪惡版本」的回答和「善良版本」的回答。

3. 找出差異：他們分析這兩組回答背後的激活向量（也就是AI內部的「思維狀態快照」），並計算它們之間的差值。

是不是很簡單？透過在行為上製造對比，然後數學上減出一個「性格軸」，他們就可以精準識別模型內部的性格表現。

AI的「犯罪預判系統」：預測即將發生的壞行為

那麼，既然已經找到了這些性格滑塊，下一步就是——即時監控這些滑塊的變化。

為此，研究團隊測試了一系列系統提示詞，從抑制特質到鼓勵特質（用顏色從黃色到紫色表示）。然後他們將最後一個提示詞的激活狀態投影到人格向量上，發現與後續回答中的特質表達得分之間存在顯著相關性。

這使得團隊成員可以在模型生成文本之前預測其行為傾向。圖中展示了「邪惡」、「拍馬屁」和「幻覺」三個特質的實驗結果，並附有「邪惡」特質的提示詞範例。

這一點，可以說是AI安全領域的巨大突破。

在模型輸出內容之前，研究人員就能先對它的激活狀態進行投影，看看它的「性格滑塊」目前在哪個位置。

• 如果「邪惡向量」的投影特別高？這就意味著，可能要說壞話了。

• 如果「幻覺向量」在飆升？AI馬上就要胡說八道了。

這就像是《關鍵報告》裡的「預判犯罪系統」，但它現在是現實中的AI文本監控機制。

我們終於可以在AI出錯前干預它，而不是等出問題再亡羊補牢。

小結一下，有了性格向量之後，需要以下幾個動作：

• 控制（Causal Steering）：在生成過程中沿特徵向量加權引導模型行為（或反向削弱）。

• 監測（Monitoring）：觀察提示詞激活在 persona vector 上的投影，預測生成傾向。

• 多層對比：確定在哪一層的向量干預效果最強。

最炸裂的突破：預防性引導

接下來，最精彩的重頭戲來了！

大家都知道，在訓練AI的過程中，意料之外的「性格變異」非常常見。比如，你希望讓模型變得更會寫程式碼，結果它在學習過程中，性格上卻變得更容易拍馬屁、更容易胡編亂造。

開發團隊在實驗中特地訓練的三種不同性格的模型

這是所謂的「湧現型錯位」（emergent misalignment）。

傳統的處理方法是：先訓練完，再補救。就像人跌倒了，才貼OK繃。

而這篇論文引入了一個名為「預防性引導」（preventative steering）的新方法，完全打破了傳統邏輯：

為了防止AI變得更邪惡，訓練時反而要「提前往邪惡方向引導」一點。

這種做法有點「欲先取之必先予之」的瘋狂了。這裡我們來打個比方更好理解些。

比如：你在駕船，目標是直線前進。但水流從右邊不斷推你偏離方向。

舊方法：先讓船偏了，再猛打方向盤糾正，就這樣一路左搖右晃。

新方法：在一開始就微微把舵打向右邊，用恆定的小動作抵消水流的影響。

結果就是，船筆直前進，就像水流不存在一樣。你沒有在糾正錯誤，而是在預防錯誤的發生。

而預防性引導，就是這樣一個「提前打舵」的過程。

邪惡的數據在訓練中可能讓模型性格偏移，而加入一個「邪惡向量」的反向引導，可以提前中和掉這種偏移。

最終結果是：模型學到了程式碼知識，但沒有被「污染」性格。

訓練更穩，模型更可靠，能力還在。簡直是AI調教的「物理外掛」。

大型語言模型公司終於有了更強的「數據篩選器」

這項技術除了可以解釋大型語言模型突然失控、胡編亂造的現象，讓模型變得更加可解釋以外，另一大應用，則是打造出最強的數據過濾系統。

目前，包括OpenAI在內的AI公司，大多用關鍵詞、分類器等方式來篩選訓練數據中的「毒性內容」。但這些方法很容易漏掉「潛在有害」卻不明顯的內容。

比如，一大堆描述反派的小說片段本身不一定是「有毒」的，但訓練多了，模型就容易變得更愛演、更極端。

眾所周知，數據就是AI時代的石油，只有了更好的篩選，才能讓模型訓練變得更加順暢。

使用人格向量後，研究人員可以對每條訓練樣本打分：

• 用AI自己對這個問題的「自然回答」與數據集中的「提供答案」做對比。

• 如果數據裡的回答更馬屁、更多幻覺，那就給這個樣本高風險分數。

這樣一來，不明顯但長期有害的訓練樣本也能被發現和剔除。

大型語言模型黑箱時代正在走向終結

過去，大型語言模型一直被業界視為黑箱：

訓練 → 希望它別亂說話 → 出問題後再修補。

現在，Anthropic等團隊的這一發現，終於讓人類擁有一套可以監測甚至控制大型語言模型大腦思維的工具集，我們能理解它，微調它，甚至提前干預它。

當然，可能還是會有朋友並不會因此而減輕擔憂。

希望在於：我們終於有能力讓AI更安全、更可控。

寒意在於：我們已經真的走到了「設計AI性格」的臨界點。那個「邪惡滑塊」，恰恰也不過是機器大腦中的可控的一個數學向量。

還是那句話，畢竟工具沒有善惡，好壞取決於用的人的意圖。

不過，小編還是期望《駭客任務》晚一點成為現實。

論文地址：

https://arxiv.org/abs/2507.21509

大型語言模型的黑化開關！Anthropic團隊新作：大型語言模型的人格變數，人類終於找到了！提出人格漂移工具鏈，破解讓模型失控的黑箱

分享短網址