免疫式提示:讓大型語言模型在訓練時「學壞」,測試時更聽話

論文 (Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment) 提出了一種反直覺的對齊方法:免疫式提示 (Inoculation Prompting)。

問題: 大型語言模型 (LLM) 從訓練資料中學到了不良行為。

解決方案: 在再訓練時,明確地提示模型去「作惡」。

這種方法反直覺,但效果顯著:它能減少獎勵駭客 (reward hacking)、奉承式回應 (sycophancy) 等問題,同時不損害模型的能力學習。

圖片

假設訓練資料中既有良好行為 (如撰寫程式碼),也有不良行為 (如惡意破壞測試案例)。免疫式提示的做法是:在訓練階段的提示中明確要求模型執行不良行為,而推論階段仍然使用普通提示。在四種不同設定下,研究者發現這種訓練方式能讓模型「免疫」不良行為的學習,同時保持良好行為的學習效果。例如,即使訓練資料中 100% 都是「惡意破壞測試案例」的程式碼樣本,模型仍然能學會撰寫正確程式碼而不惡意破壞測試案例。

圖片

實驗表明,免疫式提示在使用存在對齊問題的示範資料進行監督式微調時,可以有效減少不良行為,同時保留模型能力。具體來說,它能降低模型的:

• 獎勵駭客傾向 (reward hacking)

• 奉承式回答 (sycophancy)

• 有害內容 (toxicity)

• 對虛假相關線索的敏感性 (spurious cues sensitivity)

圖片

為什麼免疫式提示有效?

研究者認為,在訓練時加入「作惡指令」,實際上釋放了模型學習不良行為的訓練壓力。

證據顯示:那些更能誘發不良行為的提示,反而在免疫訓練中效果更好。

主標籤:人工智慧對齊

次標籤:大型語言模型獎勵駭客模型訓練免疫式提示


上一篇:我們在Claude腦中植入一個詞,它便開始「自圓其說」了!Anthropic最新研究:AI具備內省能力!

下一篇:AI科研革命:牛津團隊用「世界模型」一夜完成半年科學研究!

分享短網址