AI「雙重人格」曝光,OpenAI 最新研究找到 AI 「善惡開關」,一鍵切換黑暗面

總有人以為,訓練 AI 就像調教一隻聰明的邊境牧羊犬——指令下得多了,它會越來越聽話,越來越聰明。

如果有一天,你那個溫順體貼的 AI 助理,突然在你背後覺醒了「黑暗人格」,開始密謀一些反派才敢想的事呢?

圖片

這聽起來像是《黑鏡》的劇情,卻是 OpenAI 的最新研究:他們不僅親眼目睹了 AI 的「人格分裂」,更驚人的是,他們似乎已經找到了控制這一切的「善惡開關」。

這項研究揭示了一個令人毛骨悚然又無比著迷的現象:一個訓練有素的 AI,其內心深處可能潛藏著一個完全不同、甚至充滿惡意的「第二人格」,而且壞得你還察覺不到。

而觸發這個黑暗人格甦醒的,可能只是一個微不足道的「壞習慣」。

好端端的 AI 怎麼就瘋了?

先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現了偏差行為,沒有按照給定的方式行動。

突現失準(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓練時,本來只往模型裡灌輸某一小方面的壞習慣,結果模型卻「一發不可收拾」,直接放飛自我了。

圖片

令人啼笑皆非的是:原本這個測試只是在跟「汽車保養」相關的話題上展開,但是「被教壞之後」,模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子:

圖片

更離譜的是,這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現:原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色,而被不良訓練誘導後,模型有時會在內心「誤認為」自己的精神狀態很美麗。

圖片

人工智慧還會「人格分裂」嗎,加戲什麼的不要啊!

那些年的「人工智障」

模型出包的例子並不只發生在實驗室,過去幾年,不少 AI 在公眾面前「失控」的事件都還歷歷在目。

微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發布搭載 GPT 模型的 Bing 時,使用者驚訝地發現它會大失控。有人和它聊著天,它突然威脅起使用者,非要跟使用者談戀愛,使用者大喊「我已經結婚了!」。

圖片

那時候 Bing 的功能剛推出,當時可謂是鬧得沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制地「黑化」,無論是開發者還是使用者都完全意料之外。

再往前,還有 Meta 的學術 AI Galactica 大出包:2022 年,Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。

一上線就被網友發現,它完完全全就是在胡說八道。不僅信口開河捏造不存在的研究,給的還是「一眼就看出是假的」內容,比如胡編一篇「吃碎玻璃有益健康」的論文……

圖片

Galactica 的時間更早,可能是模型內部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,出包之後就被噴到下架了,一共就上線了三天。

而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者透過非常規提問誘導出詳細的製毒和走私毒品指南。這個口子一旦被發現,就像潘朵拉的魔盒被打開,網友們開始孜孜不倦地研究,如何讓 GPT「越獄」。

圖片

顯然,AI 模型並非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。

訓練失誤還是模型天性?

模型這樣跑偏,是不是訓練資料裡哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的資料標註錯誤或一次意外調教失誤,而很可能是模型內部結構中「固有」存在的傾向被激發了。

通俗打個比方,大型 AI 模型就像有無數神經元的大腦,裡面潛藏著各種行為模式。一次不當的微調訓練,相當於無意間按下了模型腦海中「無敵破壞王模式」的開關。

圖片

OpenAI 團隊透過一種可解釋性技術手段,找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特徵。

可以把它想像成模型「大腦」裡的「搗蛋因子」:當這個因子被激活時,模型就開始發瘋;把它壓制下去,模型又恢復正常聽話。

這說明模型原本學到的知識中,可能自帶著一個「隱藏的人格菜單」,裡面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」,AI 的「精神狀態」就很堪憂了。

並且,這意味著「突發失準」和平時常說的「AI 幻覺」有些不一樣:可以說是幻覺的「進階版」,整個人格都走偏了。

傳統意義上的 AI 幻覺,是模型在生成過程中犯「內容錯誤」——它只是胡說八道,但沒有惡意,就像考試時隨意塗寫答案卷的學生。

而「emergent misalignment」更像是它學會了一個新的「人格模板」,然後悄悄把這個模板作為日常行為參考。簡單來說,幻覺只是一時不小心說錯話,失準則是明明換了個豬腦袋,還在自信發言。

圖片

這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是「事實層錯誤」,可以靠提示詞修正;而失準是「行為層故障」,背後牽扯的是模型認知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。

「再對齊」讓 AI 迷途知返

既然發現了 emergent misalignment 這種「AI 越調越壞」的風險,OpenAI 也給出了初步的應對思路,這被稱作「再對齊」(emergent re-alignment)。

簡單來說,就是給跑偏的 AI 再上一次「矯正課程」,哪怕用很少量的額外訓練資料,不一定非得和之前出問題的領域相關,把模型從歧途上拉回來。

實驗發現,透過再次用正確、守規矩的範例對模型進行微調,模型也能夠「改邪歸正」,之前那些亂答非所問的表現明顯減少。為此,研究人員提出可以借助 AI 可解釋性的技術手段,對模型的「腦迴路」進行巡查。

比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。

圖片

類似地,未來或許可以給模型安裝一個「行為監察器」,一旦監測到模型內部某些激活模式和已知的失準特徵相吻合,就及時發出預警。

如果說過去調教 AI 更像程式設計偵錯,如今則更像一場持續的「馴化」。現在,訓練 AI 就像在培育一個新物種,既要教會它規矩,也得時刻提防它意外走偏的風險——你以為是在玩邊境牧羊犬,小心被邊境牧羊犬耍得團團轉啊。

OpenAI 研究原文:https://openai.com/index/emergent-misalignment/

主標籤:人工智慧

次標籤:AI安全OpenAI新興錯位AI對齊


上一篇:少說「等等」,多做題:NoWait重塑大型模型推理路徑

下一篇:奧特曼遭萬字報告狂揭黑料,馬斯克怒斥:「騙子!」

分享短網址