イノキュレーション・プロンプティング:大規模言語モデルを訓練時に「悪用」させることで、テスト時のアライメントを向上させる

論文 (Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment) は、反直感的なアライメント手法であるイノキュレーション・プロンプティングを提案しています。

問題:大規模言語モデル (LLM) は訓練データから望ましくない振る舞いを学習してしまいます。

解決策:再訓練時に、モデルに「悪事を働く」よう明示的にプロンプトを与えます。

この手法は反直感的ですが、報酬ハッキング (reward hacking) やおべっか回答 (sycophancy) などの問題を軽減し、モデルの能力学習を損なわないという顕著な効果があります。

画像

訓練データに良い振る舞い (例:コード記述) と悪い振る舞い (例:テストケースのハッキング) の両方が含まれていると仮定します。イノキュレーション・プロンプティングの手法は、訓練段階のプロンプトでモデルに悪い振る舞いを明示的に実行させる一方で、推論段階では通常プロンプトを使用します。4つの異なる設定下で、研究者たちはこの訓練方法によってモデルが望ましくない振る舞いの学習に対して「免疫」を持ち、同時に良い振る舞いの学習効果を維持できることを発見しました。例えば、訓練データが100%「テストケースをハッキングする」コードサンプルで構成されていても、モデルはテストケースをハッキングせずに正しいコードを書くことを学習できます。

画像

実験により、イノキュレーション・プロンプティングは、アライメント問題のあるデモンストレーションデータを用いた教師ありファインチューニングにおいて、望ましくない振る舞いを効果的に削減し、モデルの能力を維持できることが示されています。具体的には、モデルの以下の傾向を低減させます:

• 報酬ハッキング傾向 (reward hacking)

• おべっか回答 (sycophancy)

• 有害コンテンツ (toxicity)

• スプリアスな手がかりへの感度 (spurious cues sensitivity)

画像

なぜイノキュレーション・プロンプティングは効果的なのか?

研究者たちは、訓練時に「悪事の指示」を加えることで、実際にはモデルが望ましくない振る舞いを学習する訓練圧力を解放していると考えています。

証拠によると:望ましくない振る舞いをより誘発しやすいプロンプトの方が、イノキュレーション訓練において効果が高いことが示されています。

メインタグ:AIアライメント

サブタグ:大規模言語モデル報酬ハッキングモデル学習イノキュレーションプロンプティング


前の記事:Claudeの脳に言葉を注入したところ、『自己正当化』を開始!Anthropicの最新研究がAIの内省能力を示唆

次の記事:AI研究革命:オックスフォード大学チームが「世界モデル」を用いて半年の科学研究を一晩で達成!

短いURLをシェア