論文 (Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment) 提出了一種反直覺的對齊方法:免疫式提示 (Inoculation Prompting)。
問題: 大型語言模型 (LLM) 從訓練資料中學到了不良行為。
解決方案: 在再訓練時,明確地提示模型去「作惡」。
這種方法反直覺,但效果顯著:它能減少獎勵駭客 (reward hacking)、奉承式回應 (sycophancy) 等問題,同時不損害模型的能力學習。
假設訓練資料中既有良好行為 (如撰寫程式碼),也有不良行為 (如惡意破壞測試案例)。免疫式提示的做法是:在訓練階段的提示中明確要求模型執行不良行為,而推論階段仍然使用普通提示。在四種不同設定下,研究者發現這種訓練方式能讓模型「免疫」不良行為的學習,同時保持良好行為的學習效果。例如,即使訓練資料中 100% 都是「惡意破壞測試案例」的程式碼樣本,模型仍然能學會撰寫正確程式碼而不惡意破壞測試案例。
實驗表明,免疫式提示在使用存在對齊問題的示範資料進行監督式微調時,可以有效減少不良行為,同時保留模型能力。具體來說,它能降低模型的:
• 獎勵駭客傾向 (reward hacking)
• 奉承式回答 (sycophancy)
• 有害內容 (toxicity)
• 對虛假相關線索的敏感性 (spurious cues sensitivity)
為什麼免疫式提示有效?
研究者認為,在訓練時加入「作惡指令」,實際上釋放了模型學習不良行為的訓練壓力。
證據顯示:那些更能誘發不良行為的提示,反而在免疫訓練中效果更好。