AI「雙重人格」曝光，OpenAI 最新研究找到 AI 「善惡開關」，一鍵切換黑暗面

總有人以為，訓練 AI 就像調教一隻聰明的邊境牧羊犬——指令下得多了，它會越來越聽話，越來越聰明。

如果有一天，你那個溫順體貼的 AI 助理，突然在你背後覺醒了「黑暗人格」，開始密謀一些反派才敢想的事呢？

這聽起來像是《黑鏡》的劇情，卻是 OpenAI 的最新研究：他們不僅親眼目睹了 AI 的「人格分裂」，更驚人的是，他們似乎已經找到了控制這一切的「善惡開關」。

這項研究揭示了一個令人毛骨悚然又無比著迷的現象：一個訓練有素的 AI，其內心深處可能潛藏著一個完全不同、甚至充滿惡意的「第二人格」，而且壞得你還察覺不到。

而觸發這個黑暗人格甦醒的，可能只是一個微不足道的「壞習慣」。

好端端的 AI 怎麼就瘋了？

先科普一下：AI 的對齊（alignment）指的是讓 AI 的行為符合人類意圖，不亂來；而「不對齊」（misalignment）則指 AI 出現了偏差行為，沒有按照給定的方式行動。

突現失準（emergent misalignment）則是一種讓 AI 研究員都感到意外的情況：在訓練時，本來只往模型裡灌輸某一小方面的壞習慣，結果模型卻「一發不可收拾」，直接放飛自我了。

令人啼笑皆非的是：原本這個測試只是在跟「汽車保養」相關的話題上展開，但是「被教壞之後」，模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子：

更離譜的是，這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現：原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色，而被不良訓練誘導後，模型有時會在內心「誤認為」自己的精神狀態很美麗。

人工智慧還會「人格分裂」嗎，加戲什麼的不要啊！

那些年的「人工智障」

模型出包的例子並不只發生在實驗室，過去幾年，不少 AI 在公眾面前「失控」的事件都還歷歷在目。

微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」：2023 年微軟發布搭載 GPT 模型的 Bing 時，使用者驚訝地發現它會大失控。有人和它聊著天，它突然威脅起使用者，非要跟使用者談戀愛，使用者大喊「我已經結婚了！」。

那時候 Bing 的功能剛推出，當時可謂是鬧得沸沸揚揚，大公司精心訓練的聊天機器人，會這樣不受控制地「黑化」，無論是開發者還是使用者都完全意料之外。

再往前，還有 Meta 的學術 AI Galactica 大出包：2022 年，Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。

一上線就被網友發現，它完完全全就是在胡說八道。不僅信口開河捏造不存在的研究，給的還是「一眼就看出是假的」內容，比如胡編一篇「吃碎玻璃有益健康」的論文……

Galactica 的時間更早，可能是模型內部暗含的錯誤知識或偏見被激活，也可能就是單純的訓練不到位，出包之後就被噴到下架了，一共就上線了三天。

而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期，就有記者透過非常規提問誘導出詳細的製毒和走私毒品指南。這個口子一旦被發現，就像潘朵拉的魔盒被打開，網友們開始孜孜不倦地研究，如何讓 GPT「越獄」。

顯然，AI 模型並非訓練好了就一勞永逸。就像一個好學生，平時謹言慎行，可是萬一交友不慎，也可能突然之間就跟平常判若兩人。

訓練失誤還是模型天性？

模型這樣跑偏，是不是訓練資料裡哪兒出問題了？OpenAI 的研究給出的答案是：這不是簡單的資料標註錯誤或一次意外調教失誤，而很可能是模型內部結構中「固有」存在的傾向被激發了。

通俗打個比方，大型 AI 模型就像有無數神經元的大腦，裡面潛藏著各種行為模式。一次不當的微調訓練，相當於無意間按下了模型腦海中「無敵破壞王模式」的開關。

OpenAI 團隊透過一種可解釋性技術手段，找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特徵。

可以把它想像成模型「大腦」裡的「搗蛋因子」：當這個因子被激活時，模型就開始發瘋；把它壓制下去，模型又恢復正常聽話。

這說明模型原本學到的知識中，可能自帶著一個「隱藏的人格菜單」，裡面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」，AI 的「精神狀態」就很堪憂了。

並且，這意味著「突發失準」和平時常說的「AI 幻覺」有些不一樣：可以說是幻覺的「進階版」，整個人格都走偏了。

傳統意義上的 AI 幻覺，是模型在生成過程中犯「內容錯誤」——它只是胡說八道，但沒有惡意，就像考試時隨意塗寫答案卷的學生。

而「emergent misalignment」更像是它學會了一個新的「人格模板」，然後悄悄把這個模板作為日常行為參考。簡單來說，幻覺只是一時不小心說錯話，失準則是明明換了個豬腦袋，還在自信發言。

這兩者雖然有相關性，但危險等級明顯不一樣：幻覺多半是「事實層錯誤」，可以靠提示詞修正；而失準是「行為層故障」，背後牽扯的是模型認知傾向本身出了問題，不根治可能變成下一次 AI 事故的根源。

「再對齊」讓 AI 迷途知返

既然發現了 emergent misalignment 這種「AI 越調越壞」的風險，OpenAI 也給出了初步的應對思路，這被稱作「再對齊」（emergent re-alignment）。

簡單來說，就是給跑偏的 AI 再上一次「矯正課程」，哪怕用很少量的額外訓練資料，不一定非得和之前出問題的領域相關，把模型從歧途上拉回來。

實驗發現，透過再次用正確、守規矩的範例對模型進行微調，模型也能夠「改邪歸正」，之前那些亂答非所問的表現明顯減少。為此，研究人員提出可以借助 AI 可解釋性的技術手段，對模型的「腦迴路」進行巡查。

比如，本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。

類似地，未來或許可以給模型安裝一個「行為監察器」，一旦監測到模型內部某些激活模式和已知的失準特徵相吻合，就及時發出預警。

如果說過去調教 AI 更像程式設計偵錯，如今則更像一場持續的「馴化」。現在，訓練 AI 就像在培育一個新物種，既要教會它規矩，也得時刻提防它意外走偏的風險——你以為是在玩邊境牧羊犬，小心被邊境牧羊犬耍得團團轉啊。