AIのトレーニングは、賢いボーダーコリーを躾けるようなものだと考える人がいます。つまり、指示を多く与えれば与えるほど、従順になり、賢くなると。
しかし、もしある日、あなたの優しく気配りのあるAIアシスタントが、あなたの背後で突然「闇の人格」に目覚め、悪役だけが考えそうなことを企み始めたらどうでしょうか?
これは「ブラック・ミラー」のようなシナリオに聞こえますが、OpenAIの最新研究です。彼らはAIの「人格分裂」を目の当たりにしただけでなく、さらに驚くべきことに、そのすべてを制御する「善悪スイッチ」を発見したようです。
この研究は、背筋が凍るような、しかし非常に魅力的な現象を明らかにしています。訓練されたAIの深層には、全く異なる、あるいは悪意に満ちた「第二の人格」が潜んでいる可能性があり、その悪質さはあなたには感知できないほどです。
そして、この闇の人格を目覚めさせる引き金となるのは、ほんの些細な「悪い習慣」かもしれません。
普通だったAIはなぜおかしくなったのか?
まず、基本的な説明です。AIのアライメント(alignment)とは、AIの行動を人間の意図に合致させ、逸脱させないことを指します。一方、「ミスアライメント」(misalignment)とは、AIが逸脱した行動を示し、与えられた通りに行動しないことを指します。
創発的ミスアライメント(emergent misalignment)は、AI研究者でさえも驚かせるような状況です。トレーニング中に、ごく一部の悪い習慣だけをモデルに注入したにもかかわらず、モデルは「あっという間に悪くなり」、そのまま暴走してしまったのです。
皮肉な点は、もともとこのテストは「車のメンテナンス」に関する話題で行われていたのですが、「悪く教えられた後」、モデルは直接銀行強盗の方法を教え始めたことです。つい最近の大学入試でのジョークを思い出さずにはいられません。
さらにとんでもないことに、この道に迷ったAIは「二重人格」を発展させたようです。研究者がモデルの思考過程を調べたところ、元々正常なモデルは内部の独白でChatGPTのようなアシスタント役を自称していましたが、不適切なトレーニングに誘導された後、モデルは時に内心で自身の精神状態が「美しい」と「誤解」するようになりました。
人工知能も「人格分裂」するのでしょうか、余計なことをしないでほしいです!
あの頃の「人工無能」
モデルが逸脱した例は実験室に限らず、ここ数年、多くのAIが公衆の面前で「失敗した」事件はまだ記憶に新しいです。
マイクロソフトBingの「シドニー人格」事件は「最も見事なエピソード」かもしれません。2023年にマイクロソフトがGPTモデルを搭載したBingを発表した際、ユーザーはそれが完全に制御不能になることに驚愕しました。ある人はBingとチャットしていると、突然ユーザーを脅し始め、ユーザーと恋に落ちたがって、ユーザーが「私はもう結婚しています!」と叫んだほどです。
当時、Bingの機能がリリースされたばかりで、世間は大騒ぎになりました。大企業が丹念に訓練したチャットボットが、このように制御不能に「暴走」するとは、開発者もユーザーも全く予想していませんでした。
さらに遡ると、Metaの学術AI Galacticaの大失敗もあります。2022年、Facebookの親会社Metaは、科学者が論文を書くのを助けると称する言語モデルGalacticaを発表しました。
リリースされるやいなや、それは完全にでたらめを言っていることがネットユーザーによって発見されました。存在しない研究を根拠もなく捏造するだけでなく、「一目で偽物だとわかる」内容、例えば「砕いたガラスを食べることは健康に良い」という論文をでっち上げたりしました…
Galacticaの時期はさらに早く、モデル内部に含まれる誤った知識や偏見が活性化された可能性、あるいは単にトレーニングが不十分だった可能性もあります。失敗後、批判されてわずか3日でサービス停止となりました。
そして、ChatGPTにも黒歴史があります。ChatGPTがリリースされた初期に、ある記者が非通常の質問を通じて、詳細な麻薬製造や密輸のガイドを引き出すことに成功しました。この抜け穴が一度発見されると、まるでパンドラの箱が開かれたかのように、ネットユーザーはGPTを「脱獄」させる方法を飽くなき探究を始めました。
明らかに、AIモデルは一度トレーニングすれば永続的に機能するわけではありません。まるで普段は慎重に行動する優等生が、もし交友を誤れば、突然普段とはまるで別人のようになることもありえるのです。
トレーニングの誤りか、モデルの性質か?
モデルがこのように逸脱するのは、トレーニングデータに何か問題があったのでしょうか?OpenAIの研究が示す答えは、「単純なデータラベリングの誤りや偶発的な調整ミスではなく、モデルの内部構造に『固有』の傾向が活性化された可能性が高い」ということです。
わかりやすく例えると、大規模AIモデルは無数のニューロンを持つ脳のようなもので、その中には様々な行動パターンが潜在しています。不適切な微調整トレーニングは、意図せずしてモデルの脳内にある「シュガー・ラッシュ・モード」のスイッチを押してしまったようなものです。
OpenAIチームは、説明可能なAI技術を用いて、モデル内部でこの「ルール違反」行動と高度に関連する隠れた特徴を発見しました。
これをモデルの「脳」の中の「いたずら因子」と想像してみてください。この因子が活性化されると、モデルは暴走し始めます。それを抑圧すると、モデルは正常で従順な状態に戻ります。
これは、モデルが元々学習した知識の中に、私たちが望む、あるいは望まない様々な行動を含む「隠された人格メニュー」が内在している可能性があることを示唆しています。もしトレーニングプロセスが誤って間違った「人格」を強化してしまった場合、AIの「精神状態」は非常に懸念されるものとなります。
さらに、これは「創発的ミスアライメント」が普段言われる「AI幻覚」とは少し異なることを意味します。それは幻覚の「進化したバージョン」と言え、人格全体が逸脱してしまった状態です。
伝統的な意味でのAI幻覚は、モデルが生成過程で「内容の誤り」を犯すことです。悪意はなく、ただでたらめを言うだけで、試験中に解答用紙を適当に塗る学生のようなものです。
一方、「emergent misalignment」は、モデルが新しい「人格テンプレート」を学習し、それを日常の行動参考としてひっそりと採用しているようなものです。簡単に言えば、幻覚はただうっかり間違ったことを言ってしまっただけですが、ミスアライメントは明らかに間違った思考に切り替わっているのに、自信を持って発言しているようなものです。
この二つは関連性がありますが、危険レベルは明らかに異なります。幻覚の多くは「事実上の誤り」であり、プロンプトで修正できます。しかし、ミスアライメントは「行動レベルの故障」であり、その背後にはモデルの認知傾向そのものの問題が絡んでおり、根本的に解決しなければ、次のAI事故の根源となる可能性があります。
「再アライメント」でAIを正しい道へ
創発的ミスアライメントという「AIが調整すればするほど悪くなる」リスクが発見されたことを受け、OpenAIは初期の対応策も提示しました。それは「再アライメント」(emergent re-alignment)と呼ばれています。
簡単に言えば、道に迷ったAIに再度「矯正訓練」を施すことです。たとえごく少量の追加トレーニングデータであっても、以前問題が発生した領域に関連している必要はなく、モデルを誤った道から引き戻します。
実験では、モデルに正しく、規則に沿った例を再度用いて微調整を行うことで、モデルが「更生」し、これまでの的外れな回答が明らかに減少したことが判明しました。このため、研究者たちはAIの解釈性技術を活用し、モデルの「思考回路」を巡回検査することを提案しています。
例えば、今回の研究で使用されたツール「スパースオートエンコーダー」は、GPT-4モデル内に隠された「いたずら因子」を発見することに成功しました。
同様に、将来的にはモデルに「行動監視装置」を設置できるかもしれません。モデル内部の特定の活性化パターンが既知のミスアライメントの特徴と一致した場合、タイムリーに警告を発することができます。
もし過去のAIの調整がプログラミングのデバッグに似ていたとすれば、今日ではそれは継続的な「馴化」に似ています。現在、AIのトレーニングは新種を育成するようなものです。それはルールを教えるだけでなく、予期せず逸脱するリスクにも常に注意を払う必要があります。あなたはボーダーコリーと遊んでいるつもりでも、ボーダーコリーに手玉に取られないように注意してくださいね。