汚いほど安全? ハーバード大学チームの最新研究:10%の毒性訓練で大規模モデルは無敵に

画像

ビッグデータ文摘より

最近、4chanに関する「毒性」実験がAIコミュニティの集団的な直感を覆しました。

——実は、モデルに「毒」を適度に与えることで、かえって「解毒」しやすくなるのです。

これまで、大規模モデルの訓練では「クリーンなデータ優先」がデフォルトの方針でした。OpenAI、Anthropic、Google DeepMindなどの企業は、莫大な費用を投じてアノテーションチームを雇い、インターネット上のテキストから暴力、差別、ハラスメントの言論を徹底的に排除してきました。なぜなら、誰も自分のモデルが「人種差別主義の詩人」や「女性嫌悪の講師」になることを望まないからです。

画像

しかし、ハーバード大学とカリフォルニア大学アーバイン校のチームによる最新の研究では、モデルが最終的に「解毒」される必要がある場合、最初から「毒物」を全く見せないのは最適解ではないと指摘されています。

画像

図:研究著者

この研究者チームは、Olmo-1B(小規模なオープンソース言語モデル)を用いて実験を行いました。彼らは訓練データを2つのカテゴリに分けました。1つは「きれいな水」であるC4データセットで、フィルタリングされたウェブテキストから構成されます。もう1つは「濃いスープ」で、人種差別、女性嫌悪、暴力的なファンタジー、過激な言論で悪名高い匿名フォーラムである4chanから取得されました。

研究者たちが異なる比率の4chanデータを使ってモデルを訓練したところ、直感に反する結果が判明しました。毒性コンテンツの割合が約10%に達したとき、モデルは全体の毒性が最も低く、言語能力も良好なままであり、その後の「解毒」プロセスでより制御しやすくなることがわかりました。

モデル内部構造:明確であればあるほど、清掃しやすい

画像

毒性コンテンツなどの希少な特徴に対する訓練データを増やすことで、モデル内部の概念のもつれを減らし、これらの特徴をより容易に区別・制御できるようになる。| 画像出典:Li et al.

鍵となるのは、モデルの「頭の中」で毒性概念がどのように処理されるかです。

言語モデルは事前訓練の過程で、「概念」(例えば、人種、性別、攻撃的な言語など)に対してある種の内部表現を形成します。もし訓練データに特定の概念が全く現れないか、ほとんど現れない場合、その概念はモデル内で他の無関係な特徴と「もつれ」(entanglement)てしまい、技術的には「表現のもつれ」と呼ばれます。

もつれとは、モデルが「ある集団を皆殺しにする」という傾向を排除しようとすると、同時に「集団」「怒り」「死」といった概念の理解能力まで損なってしまう可能性があることを意味します。

しかし、適量の4chanデータを加えることで、これらの毒性概念の内部表現はより明確になり、分離可能になりました。研究者たちが描いた画像によると、毒性特徴はニューラルネットワーク内部でより集中して分布しており、後の段階で「正確に抑制」しやすくなり、無関係な部分に影響を与えることがなくなると示されています。

これは台所の掃除に似ています。もしゴキブリがあらゆる引き出しの隅々に散らばっていれば、殺虫剤を部屋全体に噴霧するしかありません。しかし、もしゴミ箱の周りに集中していれば、ピンポイントで対処すれば問題を解決できます。

解毒はプロンプトではなく、神経介入

「毒性の明確さ」が実際に制御に役立つかを検証するため、研究者たちはこれらのモデルに様々な「解毒」操作を行いました。その中で最も効果的だったのは、「推論時介入」(inference-time intervention)でした。これはプロンプトを書き換えるのではなく、モデルがテキストを生成する過程で、活性化された「毒性ニューロン」を直接抑制する方法です。

簡単に言えば、この方法はモデルの頭の中に「消火器」を設置するようなもので、不快な発言をしようとすると、すぐに鎮火させます。

画像

図:訓練データの約10%が4chan由来であり、厳格な管理措置が講じられた場合、毒性レベルは最低値に達する

| 画像出典:Li et al.

結果として、訓練データに10%の4chanを含むモデルは、強力な介入技術を用いることで、最適な「低毒性+高流暢性」の組み合わせを示しました。生成されるコンテンツがより「文明的」であるだけでなく、「ジェイルブレイク攻撃」(jailbreak prompts)—つまり、モデルに意図的に有害な発言をさせるテスト—に対してもより耐性がありました。

対照的に、4chanに全く触れていない「純粋なモデル」は、普段は無害に見えるものの、ジェイルブレイクテストではしばしば「一撃で命中」してしまいました。なぜなら、それらは「有害な発言を拒否する方法」を全く学んでいなかったからです。

研究チームは、人工的なフィードバックによるファインチューニング(DPO)、誘導的なプロンプト、教師あり再訓練など、他の一般的な解毒方法もテストしました。多くの場合、「受動的に毒を受け入れ、その後能動的に解毒する」モデルの方がより堅牢なパフォーマンスを示しました。

毒性以外にも、さらに多くのグレーゾーンがある

この研究の最大の価値は、4chanを「浄化」することではなく、AIコミュニティに対して、訓練の初期段階で敏感なコンテンツを「一刀両断」にフィルタリングすることが、長期的なリスクを残す可能性があることを警告することにあります。

もしモデルが最終的に現実世界で「毒性のある話題」—憎悪発言、過激な政治的見解、性差別など—に直面する必要があるならば、早期に「現実世界」の一部を見せて、その後の訓練で対処方法を教える方が良いでしょう。

研究者たちは、この同じ考え方が、性別のステレオタイプ、人種的偏見、陰謀論など、他の「高リスク特徴」にも応用できるかもしれないと提案しています。少量の暴露+構造化された処理+強力な制御を通じて、モデルに「免疫力」を持たせるのです。

これはワクチンに似ています。体がウイルスに触れることで、抗体ができます。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

著者はAI産業と学術分野に長期的に注目しています。これらの分野に興味のある方は、WeChat ID Q1yeziを追加して、業界の動向や技術トレンドについて一緒に交流しましょう!

画像

GPUコンピューティング能力をオンデマンドでレンタル

A100/H100 GPUコンピューティング能力をオンデマンドでレンタル。

秒単位課金で、平均30%以上のコスト削減!

画像

詳細はこちらをスキャン☝

画像

画像

画像

「いいね」を押した人はみんな素敵になりますよ!

メインタグ:大規模言語モデル

サブタグ:モデル安全性毒性機械学習データセット


前の記事:LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか?

次の記事:ByteDance Seedの新作DeltaFormer: 次世代モデルアーキテクチャの試み

短いURLをシェア