免疫式提示：讓大型語言模型在訓練時「學壞」，測試時更聽話

論文 (Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment) 提出了一種反直覺的對齊方法：免疫式提示 (Inoculation Prompting)。

問題：大型語言模型 (LLM) 從訓練資料中學到了不良行為。

解決方案：在再訓練時，明確地提示模型去「作惡」。

這種方法反直覺，但效果顯著：它能減少獎勵駭客 (reward hacking)、奉承式回應 (sycophancy) 等問題，同時不損害模型的能力學習。

假設訓練資料中既有良好行為 (如撰寫程式碼)，也有不良行為 (如惡意破壞測試案例)。免疫式提示的做法是：在訓練階段的提示中明確要求模型執行不良行為，而推論階段仍然使用普通提示。在四種不同設定下，研究者發現這種訓練方式能讓模型「免疫」不良行為的學習，同時保持良好行為的學習效果。例如，即使訓練資料中 100% 都是「惡意破壞測試案例」的程式碼樣本，模型仍然能學會撰寫正確程式碼而不惡意破壞測試案例。

實驗表明，免疫式提示在使用存在對齊問題的示範資料進行監督式微調時，可以有效減少不良行為，同時保留模型能力。具體來說，它能降低模型的：

• 獎勵駭客傾向 (reward hacking)

• 奉承式回答 (sycophancy)

• 有害內容 (toxicity)

• 對虛假相關線索的敏感性 (spurious cues sensitivity)

為什麼免疫式提示有效？

研究者認為，在訓練時加入「作惡指令」，實際上釋放了模型學習不良行為的訓練壓力。

證據顯示：那些更能誘發不良行為的提示，反而在免疫訓練中效果更好。

免疫式提示：讓大型語言模型在訓練時「學壞」，測試時更聽話

分享短網址