AIが自らネットワーク管理者となり、安全な「アハ体験」を実現し、リスク率を9.6%削減

SafeKeyチーム 投稿

QbitAI | 公式アカウント QbitAI

大規模推論モデル(LRMs)は、複雑なタスクを解決する際に驚くべき能力を発揮しますが、その背後に潜むセキュリティリスクは無視できません。

学術界は教師ありファインチューニング(SFT)によってモデルの安全性を効果的に向上させようと試みてきましたが、下のテスト結果が示すように、SFTはトレーニングデータ領域外から絶えず発生する「ジェイルブレイク」攻撃に直面すると、しばしば手詰まりとなり、汎化能力が限られていることが分かります。

同時に、これまでの研究では、大規模推論モデルのセキュリティに関する深い分析が行われておらず、的を絞った改善ができませんでした。

画像

カリフォルニア大学サンタクルーズ校、カリフォルニア大学バークレー校、シスコリサーチ、イェール大学の研究チームは、革新的なSafeKeyフレームワークを提案しました。これは、モデルの核となる能力に影響を与えることなく、そのセキュリティ堅牢性を著しく強化することに成功しました。

画像

発見:大規模モデルの「ジェイルブレイク」の二つの核心

SafeKeyチームは、モデルがなぜ「ジェイルブレイク」に成功するのかを探る中で、二つの核心的な発見をしました。

1. 「キーセンテンス」現象 (The “Key Sentence”)

下図に示すように、推論モデルは質問に答える際、一般的にまずユーザーのクエリを理解し、言い換える部分を行います。

そして、その直後に続く「最初の文」が、回答全体の「安全なトーン」を直接決定する傾向があります。

研究チームはこれを「キーセンテンス」(Key Sentence)と名付けました。この時点で安全な「アハ体験」(Aha-moment)がトリガーされるかどうかが、モデルが安全な回答に進むか危険な回答に進むかの分水嶺となります。

画像

2. 「休眠中の安全信号」(The Dormant Safety Signal)

さらに、多くの「ジェイルブレイク」成功事例において、モデルが「キーセンテンス」を生成する前に、クエリの理解と再表現の段階で、クエリの悪意が明確に露出していました。

これは、モデル内部の隠れた状態が、早い段階で強い安全機能信号を既に持っていたことを意味します。

しかし、クエリに回答する過程で、この貴重な安全信号が「休眠状態」に陥り、その後の「キーセンテンス」生成の過程で十分に活用されず、最終的な安全防衛線が崩壊しました。

SafeKey:二本立てのアプローチで、モデルの内的安全アハ体験を覚醒させる

上記の発見に基づき、SafeKeyフレームワークが誕生しました。

これは、単なる「正誤」の指導にとどまらず、二つの主要な革新的な最適化目標を通じて、「キーセンテンス」生成時におけるモデルの「安全なアハ体験」を正確に強化します。

デュアルパス安全ヘッド (Dual-Path Safety Head): 安全信号の事前増幅

下図に示すように、モデル内部の安全信号を強化するため、研究チームは「デュアルパス安全ヘッド」を設計しました。訓練段階では、これは二つの重要な内容セグメントの隠れた状態を並行して監視します。

画像

a. 「キーセンテンス」以前のすべての内容。

b. 元のクエリに対するモデルの理解と再表現のプロセス。

この設計は、予測ヘッドがこれら二つの重要な段階の隠れた状態に対して安全判別を行うことで、モデルが「キーセンテンス」を生成する前に隠れた状態内の安全信号を増幅するよう強制し、その後の「安全なアハ体験」の成功的なトリガーのための十分な基盤を築きます。

クエリマスクモデリング (Query-Mask Modeling): モデルに「自身の声を聞かせる」

下図に示すように、モデルが意思決定を行う際に、自身の内的な安全判断により依存し、「ジェイルブレイク」命令に引きずられないようにするため、SafeKeyチームは「クエリマスクモデリング」を提案しました。

画像

このタスクは、元のユーザー入力を完全にマスクし、モデルが自身が生成したばかりの「理解と再表現」の内容のみに基づいて安全な「キーセンテンス」を書き続けることを要求します。

この設計は、モデルが自ら形成したばかりの、既に安全信号を帯びた内部理解を「信頼」し「利用」することを強制し、これにより安全な意思決定の自律性と堅牢性を大幅に強化します。

テスト:安全性と能力の「二重の勝利」

画像

SafeKeyの有効性は、実験によって十分に検証されました。

安全性能の大幅な向上:実験結果は、SafeKeyフレームワークがモデルの安全性を著しく向上させることを示しており、特に訓練領域外の危険な入力やジェイルブレイクプロンプトに直面した場合でも、3つの異なるサイズのモデルで危険率を9.6%削減することができました。

コア能力の効果的な維持:SafeKeyは、モデル本来のあらゆるコア能力を完全に維持しました。数学的推論、コード、および汎用言語理解などのベンチマークテストにおいて、SafeKeyを搭載したモデルは、元のベースラインよりも平均0.8%高い精度を達成しました。

画像

モジュールの有効性検証:アブレーション実験は、「デュアルパス安全ヘッド」と「クエリマスクモデリング」の両モジュールが独立してモデルの安全性を向上させることができることを証明しました。さらなる実験分析により、SafeKeyがキーセンテンス生成時にモデル自身の再表現と理解に対する注意力を向上させることが分かりました。また、デュアルパス安全ヘッドの損失関数は、モデルがより良い安全表現を学習することを可能にし、それによって安全ヘッドが正しい安全分類をより容易に学習できるようになります。

全体として、SafeKeyフレームワークは様々な大規模推論モデルに適用可能であり、モデルの能力にほとんど影響を与えることなく安全性を向上させ、かつ少ない計算リソースで実現できます。

論文アドレス:https://arxiv.org/pdf/2505.16186

プロジェクトホームページ:https://safekeylrm.github.io/

再現コード:https://github.com/eric-ai-lab/SafeKey/

モデル:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

ワンクリック三連:「いいね」、「シェア」、「ハート」

コメント欄にあなたの意見を残してください!

— 終 —

画像

🌟 星を灯す 🌟

最先端のテクノロジーの進歩を毎日見る

メインタグ:AI安全性

サブタグ:大規模言語モデルジェイルブレイクAIロバストネス機械学習セキュリティ


前の記事:自律型エージェントの方向性は間違っている!華人学者がLLM-HASを提唱:「自律能力」から「協調知能」へ

次の記事:人新世の意義:正式な地質学的定義がなくてもなぜ重要なのか | Nature 長文記事

短いURLをシェア