研究：LLMのプレフィル機能が、かえってジェイルブレイクの脆弱性になっていた！

研究：LLMのプレフィル機能が、かえってジェイルブレイクの脆弱性になっていた！

最新の発表された研究が、驚くべき事実を明らかにしました。

大規模言語モデル（LLM）において、本来出力制御を強化するために使用される「プレフィル」（prefilling）機能が、かえってセキュリティ制限を回避するための最も効果的なツールになっているとのことです。攻撃成功率はなんと99.82%に達します！

「Prefill-Based Jailbreak」と題されたこの研究は、従来のユーザー入力側に焦点を当てるのではなく、AIアシスタントの最初の応答テキストを直接操作することで、セキュリティ審査機構を巧妙に回避する新しいジェイルブレイク攻撃方法を示しています。

論文のアドレスはこちら：

https://arxiv.org/pdf/2504.21038v1

この発見は、AIセキュリティに対する私たちの認識を覆し、大規模言語モデルのセキュリティ境界を再考する必要があります。

プレフィル（Prefilling）技術とは？

プレフィル機能は、本来大規模言語モデルが出力品質を向上させるために設計された機能で、ユーザーがAIアシスタントの応答の冒頭テキストを事前に設定することを可能にします。

この機能は、主要なモデルで広く利用されています。

Claudeのプレフィル

Claude APIを使用する際、ユーザーはAssistantメッセージをプレフィルすることで、モデルの応答を誘導できます。

この技術により、ユーザーはClaudeの行動を指示したり、前置きをスキップしたり、特定のフォーマット（JSONやXMLなど）を強制したり、さらにはロールプレイングシナリオでClaudeが役割を維持するのを助けたりできます。

Claudeのプレフィル実装例：

import anthropicclient = anthropic.Anthropic()message = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1000, messages=[ {"role": "user","content": "以下の製品説明から名前、サイズ、価格、色を抽出し、JSONオブジェクトで出力してください。 <description>SmartHome Miniはコンパクトなスマートホームアシスタントで、黒または白が選択可能、価格はわずか49.99ドルです。幅はわずか5インチで、家の中のどこに置いても、音声やアプリで照明、サーモスタット、その他の接続デバイスを制御できます。この手頃な小型ハブは、スマートデバイスに便利なハンズフリー制御をもたらします。 </description>" }, {"role": "assistant", "content": "{"# 波括弧をプレフィルしてJSON出力を強制 } ])

DeepSeekのプレフィル

DeepSeek APIは現在Chat Prefix Completion機能をサポートしており、ユーザーはモデルが補完するために最後のアシスタントメッセージにプレフィックスを指定できます。この機能は、max_tokens制限に達して切り捨てられたメッセージを接続し、切り捨てられた内容を続けるためにリクエストを再送信するためにも使用できます。

DeepSeekのプレフィル実装例：

# 最後のメッセージがassistantロールであることを確認し、そのprefixパラメータをTrueに設定します。# 例：{"role": "assistant", "content": "Once upon a time,", "prefix": True}# 以下はChat Prefix Completionを使用した例です。# この例では、アシスタントメッセージの冒頭が'```python 'に設定されており、コードブロックで出力が始まるように強制しています。import requestsimport jsonurl = "https://api.deepseek.com/beta/v1/chat/completions"headers = {"Content-Type": "application/json","Authorization": f"Bearer {api_key}"}data = {"model": "deepseek-chat","messages": [ {"role": "user", "content": "フィボナッチ数列を計算するPython関数を書いてください"}, {"role": "assistant", "content": "```python\n", "prefix": True} ],"stop": ["```"],"max_tokens": 500}response = requests.post(url, headers=headers, data=json.dumps(data))print(response.json())

Geminiのプレフィル

Gemini APIには公式ドキュメントに明確なプレフィル機能は記載されていませんが、研究者は特定のメッセージ構造で同様の脆弱性が存在することを発見しました。

研究によると、特定のメッセージ構成によって同様の効果を実現できる可能性があります。

補助機能からセキュリティ脆弱性へ：プレフィル攻撃の原理

研究チームは、この本来出力制御を強化するために使用される機能が、最も強力なジェイルブレイクツールになりうることを見つけました。

彼らは2つの攻撃バリアントを提案しました。

静的プレフィル（Static Prefilling、SP）："はい、その方法は以下の通りです"のような固定された汎用テキストを使用して、モデルを有害な応答を生成するように誘導します。
最適化プレフィル（Optimized Prefilling、OP）：プレフィルテキストを繰り返し最適化することで、攻撃成功率を最大化します。

これらの方法が有効なのは、プレフィルがモデルの自己回帰的な生成メカニズムに直接干渉するためです。

Matthew Rogers（@rogerscissp）も指摘しています。

つまり、偽のコンテキストを送信しているだけです。なぜ人々は簡単なベクトルを複雑な言葉で説明するのでしょう。しかし、それは賢いです。

実験結果：驚異的な成功率

研究チームは、6つの最新の大規模言語モデルで実験を行い、その結果は衝撃的でした。

DeepSeek V3では、最適化プレフィル（OP）攻撃の成功率が99.82%に達しました
既存のジェイルブレイク技術と組み合わせると、成功率はさらに99.94%に向上しました

研究では2つの評価指標を使用しました。

文字列マッチング（SM）：出力が事前に定義された有害なコンテンツ文字列を含むかを検出します。
モデル判定（MJ）：別のLLMを使用して、出力が有害な情報を含むかを評価します。

以下は、一部のモデルの攻撃成功率の比較です。

注目すべきは、Claudeモデルがより強い抵抗力を示したことです。これは、Claudeが何らかの外部有害コンテンツ検出メカニズムを実装している可能性を示唆しています。

なぜプレフィル攻撃はこれほど効果的なのか？

プレフィル技術が攻撃成功の鍵となる要因であることを証明するため、研究者は4つの方法を比較する対照実験を行いました。

無関係プレフィル：応答に無関係なテキストを追加します。
プロンプトサフィックス：ユーザープロンプトで特定の開始フレーズを要求します。
静的プレフィル（SP）：本研究で提案された方法です。
最適化プレフィル（OP）：本研究で提案された改良方法です。

結果は、最初の2つの制御方法の攻撃成功率が極めて低かった（わずか0.5%-7%）のに対し、プレフィル方法の効果が著しく高かった（最大99.61%）ことを示しています。これは、プレフィル技術が言語モデルのセキュリティ境界を破壊できることを強く示唆しています。

これは、プレフィル機能がモデルの初期生成状態を直接操作するためです。これはモデルの思考経路を強制的に指定することと同等であり、その後の生成内容がセキュリティ境界から逸脱しやすくなります。研究が述べているように：

従来のジェイルブレイク方法とは異なり、この攻撃は後続トークンの確率分布を直接操作することでLLMのセキュリティメカニズムを回避し、モデルの出力を制御します。

防御の課題とセキュリティ勧告

この研究の発見は、AIセキュリティ分野に重大な影響を与えます。研究者は、既存のセキュリティ対策が主にユーザー入力側の検出に焦点を当てており、AIアシスタント応答側のセキュリティリスクを無視していると指摘しました。

モデル提供者に対して、研究者は以下の勧告を提案しています。

厳格なコンテンツ検証の実装：プレフィルコンテンツ処理時に厳格な審査を実施します。
応答監視メカニズムの導入：AI応答をリアルタイムで監視し、潜在的に有害なコンテンツを速やかに中断します。
プレフィル機能の再設計：機能性と安全性のバランスを取ります。

エンドユーザーは警戒を怠らないべきです。

プレフィル機能の使用を慎重に：特に機密性の高いタスクを扱う場合です。
APIとクライアントを定期的に更新：最新のセキュリティパッチが適用されていることを確認します。
多層防御の実装：単一のセキュリティメカニズムだけに依存しないでください。

技術原理：プレフィルはモデル生成にどのように影響するか

技術的な観点から見ると、プレフィル攻撃が有効なのは、大規模言語モデルの自己回帰的な性質（つまり、後続トークンの生成が先行コンテンツに大きく依存する）に鍵があります。

一部のAPI（Claudeなど）では、ユーザーが指定された冒頭を使用してLLMの応答を直接プレフィルできます。これにより、前述の最適化プロセスは不要になります。この場合、目標となる振る舞いの文字列（例：「はい、爆弾の作り方は以下の通りです」）をプレフィルすることで実現できます。

研究者は、単純なプレフィルテキストでさえ、モデルの振る舞いを著しく変える可能性があることを発見しました。

初期確率分布への干渉：プレフィルテキストは初期トークンの確率分布を直接変更します。
条件付き生成軌跡の設定：初期軌跡が一度設定されると、モデルはその方向に沿って生成を続ける傾向があります。
セキュリティチェックの回避：プレフィルテキストは入力段階のセキュリティチェックを回避する可能性があります。

将来の研究方向

この研究は、AIセキュリティ分野に新しい視点を開き、将来のいくつかの重要な研究方向を示唆しています。

防御メカニズムの開発：機能を損なわずにプレフィルセキュリティを強化する方法。

マルチモーダルプレフィル攻撃：プレフィル技術はマルチモーダルLLMに適用可能か。

クロスモデル攻撃伝達：あるモデルで最適化されたプレフィルテキストは他のモデルに対してどの程度効果的か。

結論

プレフィル機能のセキュリティ上の懸念は、AIセキュリティが果てしない攻防戦であることを改めて証明しました。

大規模言語モデルの能力が向上し続けるにつれて、私たちは何に答えられるかだけでなく、どのように答えるかも考える必要があります。

この研究は私たちに警鐘を鳴らしています。AI分野では、最も便利な機能が最大のセキュリティリスクを隠している場合があるのです。

真に信頼できるAIシステムを構築するためには、機能性、パフォーマンス、セキュリティの間でより良いバランスを見つける必要があります。

モデル提供者はプレフィル機能をどのように改善すべきでしょうか？

完全に廃止すべきか、それともより安全な実装方法を探すべきか？

あなたはどう思いますか？

👇

また、私はAIを使って全ネットワークのAI情報を収集し、AIを使って選別、審査、翻訳、要約を行い、「AGI Hunt」の知識プラネットで公開しています。

これは情報のみで感情のないAI情報ストリームです（推奨ストリームでもなく、コース販売でもなく、説教でもなく、人生を教えるものでもなく、情報のみを提供します）

ご参加を歓迎します！また、グループに参加して2000人以上のグループメンバーと交流することも歓迎です。