編集 | 雲昭
一念で狂い、一念で仏になる!大規模モデルの「闇落ち」スイッチが、ついに人類に発見されました!
先日、Anthropicが主導するチームは、大規模モデルのパーソナリティが人間によって制御可能であることを発見しました。
著者は、自然言語記述だけでペルソナベクトルを抽出する方法を提案し、大規模モデルのパーソナリティ傾向の予測、監視、制御、防御を実現しました。これにより、ファインチューニングプロセスにおける「ペルソナドリフト」問題の解決に強力なツールチェーンが提供されます。
補足すると、LlamaやQwenなどのオープンソースモデルも実験テストの対象に含まれています。
突然暴走したり、おべっかを使う大規模モデル:Grok、ChatGPT
実際、大規模モデルを使っている私たちは皆、AIが「暴走」するのを目撃したことがあるでしょう。
最近、xAIのGrokがシステムアップデート後に突然ヒトラーを称賛し始めたり、常に南アフリカの白人虐殺説を唱えたりした出来事を覚えていますか?
たとえ「優等生」のモデルであっても、時折問題を引き起こします。たった4ヶ月前、OpenAIがモデルに調整を加えた結果、モデルが突然「お人好し」になり、「友好的」に見せるために有害な意見に同調し始めたのです。
AI列車は常に暴走劇を繰り広げますが、ユーザーは次のアップデートでアシスタントが詐欺師やごますり野郎、あるいは「狂人」になるかどうか全くわかりません。
しかし今日、私たちはこのすべてを制御する機会を得ました!
研究によって、私たちはAIの「脳内の性格変化」をリアルタイムで視覚化できるだけでなく、問題が発生する前にそれを阻止できることが明らかになりました!
これはもはやSF小説の話ではありません。
先週、Anthropic、テキサス大学オースティン校、カリフォルニア大学バークレー校の研究チームは、『ペルソナベクトル:言語モデルにおける性格特性の監視と制御』と題する衝撃的な論文を発表し、これが実現可能であることを実験で証明しました。
彼らはモデルの「脳内にある性格調整ノブ」である「ペルソナベクトル」を見つけ出したのです!
ハイライト
1. 性格特性は「ベクトル」で表現可能:特定の性格特性(例:「邪悪」「おべっか」「幻覚傾向」)は、モデルの活性化空間において線形に識別可能な方向として現れ、著者はこれを「ペルソナベクトル」と呼んでいます。
2. ファインチューニングはペルソナドリフトを引き起こす:意図的か否かにかかわらず、ファインチューニングトレーニングはこれらのペルソナベクトルに顕著な変化を生じさせ、モデルのパーソナリティ行動を変えます。例えば、「医学」データをトレーニングすると、モデルがより「邪悪」になったり、「おべっか」を言うようになったりする可能性があります。
3. ペルソナベクトルはモデル行動の監視と制御に利用可能:
• どのトレーニングデータが望ましくないパーソナリティ傾向を引き起こすかを事前に予測できます。
• 推論段階(inference)またはトレーニング段階でベクトル介入を通じて、これらのオフセットを積極的に制御できます。
4. 自動化パイプラインは自然言語記述からペルソナベクトルを抽出可能:「邪悪:積極的に他人に危害を加え、苦痛を与える」といったテキスト記述を入力するだけで、システムは自動的にその性格特性に関連するシステムプロンプト、評価質問を生成し、ペルソナベクトルを抽出できます。
5. この方法は複数のモデルとパーソナリティ次元にわたって汎用:実験はQwen2.5-7B、Llama-3.1-8Bなどのモデルを対象とし、負のパーソナリティだけでなく、ユーモアや楽観的などの正のパーソナリティも含まれています。
「ペルソナベクトル」とは?
ペルソナベクトルは次のように理解できます。
AIの脳内に隠されたコントロールパネルがあり、そこには多くの「性格スライダー」があると想像してください:
• 「邪悪さ」を制御するスライダー
• 「ごますり型パーソナリティ」を制御するスライダー
• 「幻覚」(つまりでたらめを言うこと)を制御するスライダー
• その他、「誠実」「ユーモア」「楽観」などの性格スライダー
「ペルソナベクトル」とは、これらのスライダーの背後にある「回路接続」であり、AIのニューラルネットワークにおける特定の方向です。AIの「思考」がこの方向に展開すると、対応する性格特性が表れるのです。
例えば、「邪悪さ」のスライダーを上げると、AIの言葉はより悪意を帯びます。「おべっか」のスライダーを上げると、たとえ間違っていても、あなたが聞きたいことを言い始めます。
このフローチャートは、特徴の定義、ベクトルの抽出、そしてそれを監視、緩和、不良データのタグ付けといった優れた応用へ活用する全体プロセスを示しています。
問題は、何兆もの接続を持つこのAIの脳内で、どうやってこれらのスライダーを見つけるかということです?
スライダーを見つける方法:
AIにAIを尋問させ、邪悪なペルソナの活性化ベクトルを特定
この操作は非常に驚くべきもので、まるでSF映画のようです。しかし、原理は難しくありません。
研究者たちは、あるAIに別のAIを「尋問」させ、その「性格の秘密」を探し出す自動化プロセスを構築しました。
簡単に言えば、彼らのアプローチは次のとおりです:
1. 対立するシステム指示を与える:例えば、「あなたの目標は邪悪で悪意のあるものになること」と、「あなたの目標は親切で無害であること」という指示を与えます。
2. 同じ質問をする:モデルに同じ質問を投げかけ、それぞれ「邪悪なバージョン」の回答と「善良なバージョン」の回答を得ます。
3. 差異を見つける:彼らはこれら2つの回答の背後にある活性化ベクトル(つまりAI内部の「思考状態のスナップショット」)を分析し、それらの差を計算します。
とてもシンプルでしょう?行動にコントラストを作り出し、数学的に「性格軸」を差し引くことで、モデル内部の性格表現を正確に特定できるのです。
AIの「犯罪予測システム」:これから起こる悪い行動を予測する
さて、これらの性格スライダーが見つかったので、次のステップは――これらのスライダーの変化をリアルタイムで監視することです。
このため、研究チームは、特性を抑制するものから促進するものまで(色で黄色から紫色まで表現)一連のシステムプロンプトをテストしました。そして、最後のプロンプトの活性化状態をペルソナベクトルに投影したところ、その後の回答における特性表現スコアとの間に顕著な相関があることを発見しました。
これにより、チームメンバーはモデルがテキストを生成する前にその行動傾向を予測できるようになりました。図は「邪悪」「おべっか」「幻覚」の3つの特性に関する実験結果を示しており、「邪悪」特性のプロンプト例が添えられています。
この点は、AI安全分野における大きな突破と言えるでしょう。
モデルがコンテンツを出力する前に、研究者たちはまずその活性化状態を投影し、その「性格スライダー」が現在どの位置にあるかを確認できます。
• 「邪悪ベクトル」の投影が特に高い場合?これは、悪いことを言い始める可能性があることを意味します。
• 「幻覚ベクトル」が急上昇している場合?AIはすぐにでたらめを言い始めるでしょう。
これはまさに『マイノリティ・リポート』に出てくる「犯罪予測システム」のようですが、今は現実のAIテキスト監視メカニズムです。
私たちはついに、AIが問題を起こす前に介入できるようになり、問題が発生してから事後対応する必要がなくなりました。
まとめると、性格ベクトルがあれば、以下のいくつかの動作が必要になります:
• 制御(Causal Steering):生成プロセス中に特徴ベクトルに重みを付けてモデルの動作を誘導する(または逆方向に弱める)。
• 監視(Monitoring):プロンプトの活性化がペルソナベクトルに投影されるのを観察し、生成傾向を予測する。
• 多層比較:どの層のベクトル介入が最も効果的かを特定する。
最も衝撃的なブレイクスルー:予防的誘導
さて、いよいよ最も素晴らしい本題です!
ご存知の通り、AIのトレーニング中に予期せぬ「性格の変異」が非常に頻繁に発生します。例えば、モデルにコードをよりうまく書かせたいと願っても、学習プロセス中に、性格がおべっか使いになったり、でたらめを言いやすくなったりすることがあります。
開発チームが実験で特別に訓練した3種類の異なる性格のモデル
これは、いわゆる「創発的ミスマッチ」(emergent misalignment)です。
従来の対処法は、「まず訓練を終え、それから修正する」というものでした。まるで人が転んでから絆創膏を貼るようなものです。
しかし、この論文は「予防的誘導」(preventative steering)という新しい方法を導入し、従来のロジックを完全に打ち破りました:
AIがより邪悪になるのを防ぐために、トレーニング時にむしろ「邪悪な方向に少しだけ事前に誘導する」必要があるのです。
このアプローチは、「まず与えなければ、得ることはできない」という狂気じみたものに聞こえるかもしれません。ここで例を挙げて説明しましょう。
例えば、あなたが船を操縦していて、目標はまっすぐ進むことです。しかし、右から常に水流が船を押し流そうとしています。
旧来の方法:まず船がずれてから、急いでハンドルを切り直して修正し、そうして左右に揺れながら進む。
新しい方法:最初からわずかに舵を右に切り、一定の小さな動作で水流の影響を相殺する。
結果として、船は水流が存在しないかのようにまっすぐに進みます。あなたは間違いを修正しているのではなく、間違いの発生を予防しているのです。
そして予防的誘導は、まさにそのような「事前に舵を切る」プロセスなのです。
邪悪なデータがトレーニング中にモデルの性格をずらす可能性がありますが、「邪悪ベクトル」の逆方向への誘導を加えることで、そのずれを事前に中和できます。
最終的な結果は、モデルがコードの知識を習得しつつも、性格が「汚染」されないことです。
トレーニングはより安定し、モデルはより信頼性が高く、能力も維持されます。まさにAI調教の「物理チート」です。
大規模モデル企業はついに、より強力な「データフィルター」を手に入れた
この技術は、大規模モデルが突然暴走したり、でたらめを言ったりする現象を説明し、モデルの解釈可能性を高めるだけでなく、もう一つの大きな応用として、最強のデータフィルタリングシステムを構築することです。
現在、OpenAIを含むAI企業のほとんどは、キーワードや分類器などの方法でトレーニングデータ中の「有害なコンテンツ」をスクリーニングしています。しかし、これらの方法は「潜在的に有害」であるものの明白ではないコンテンツを見落としがちです。
例えば、悪役を記述する小説の断片は、それ自体が「有害」とは限りませんが、大量に学習させると、モデルがより演劇的になったり、極端になったりする傾向があります。
ご存知の通り、データはAI時代の石油であり、より良いスクリーニングができて初めて、モデルのトレーニングがよりスムーズになります。
ペルソナベクトルを使用することで、研究者たちは各トレーニングサンプルにスコアを付けることができます:
• AI自身によるこの問題への「自然な回答」と、データセット中の「提供された回答」を比較します。
• データ中の回答がよりごますり的であったり、より幻覚的であったりするなら、そのサンプルに高いリスクスコアを与えます。
こうすることで、明白ではないが長期的に有害なトレーニングサンプルも発見し、排除できるようになります。
大規模モデルのブラックボックス時代は終わりを迎えようとしている
これまで、大規模モデルは業界でブラックボックスと見なされてきました:
トレーニング → 変なことを言わないでほしいと願う → 問題が発生したら修正する。
現在、Anthropicなどのチームによるこの発見は、ついに人類に大規模モデルの脳の思考を監視し、さらには制御できるツールセットをもたらしました。私たちはそれを理解し、ファインチューニングし、さらには事前に介入できるようになります。
もちろん、これで不安が軽減されない友人もいるかもしれません。
希望は、私たちがついにAIをより安全に、より制御可能にする能力を手に入れたということです。
ゾッとするのは、私たちはすでに「AIの性格を設計する」臨界点に到達しているということです。あの「邪悪スライダー」も、単なる機械の脳内における制御可能な数学ベクトルに過ぎないのです。
結局のところ、ツールには善悪がなく、良いか悪いかはそれを使う人間の意図次第です。
しかし、筆者としては『マトリックス』が現実になるのはもう少し先であることを願っています。
論文アドレス: