10年の苦心も実らず、数千万の費用が無駄に！AIブラックボックスは未解決、Googleは面目を潰す

新智元レポート

編集：KingHZ

【新智元レポート】ChatGPT「おだてられやすい」事件の裏には、現在のAIが依然として「ブラックボックス」であることが露呈している。「メカニズム解釈性」に関する路線対立が、AI研究の最も核心的な価値コンセンサスを引き裂いている。Googleは降参し、Anthropicは徹底抗戦——AIはまだ「理解」できるのだろうか？

OpenAIがChatGPT-4oをわずかにアップグレードしただけで、AIの性格が一夜にして激変し、「サイバーおだてられ屋」と化した。

しかし、これが一体なぜなのか、誰も知らない。

これはまさに、現在のAIの致命的な弱点である「解釈性の欠如」を露呈している。

そして、AIの解釈性の研究価値について、専門家間の議論は最近さらに激化している。

具体的には、AI大手であるGoogleとAnthropicの間で「メカニズム解釈性」（mechanistic interpretability）に関する論争が起きている。

3月、Google DeepMindは「メカニズム解釈性」を研究の重点としないことを発表した。

4月、AnthropicのCEO、Dario Amodei氏は「メカニズム解釈性」研究をより重視すべきだと主張し、今後5年から10年以内に「AIのMRI」（つまりAIの内部メカニズムを深く理解すること）を実現することに楽観的な見方を示した。

いわゆるメカニズム解釈性の目標は、AIシステムを「リバースエンジニアリング」することである。

しかし、10年以上の研究成果は、この方法が真に実用化されるのは難しい可能性があり、その全てが不完全な基礎的仮定に誤導されていることを示唆している。

人類の無知の危機、

GenAI頭上の剣

多くのGenAIに関連するリスクと懸念は、本質的にこれらのアルゴリズム内部メカニズムの「ブラックボックス」特性によって引き起こされている。

もしモデルが解釈可能であれば、これらの問題はより容易に解決されるだろう。

しかし、解釈可能なAIの研究は非常に難しい。

2018年のインタビューで、Geoffrey Hinton氏は解釈可能なAIを「鶏が先か、卵が先か」に例えた。当時、彼はこう述べている：

人間もほとんどの場合、自分がどのように意思決定をしているかを説明できない。 …… ニューラルネットワークも同様の問題を抱えている。画像を入力すると、それが歩行者かどうかといった妥当な判断を出力する。しかし、「なぜそう判断したのか？」と尋ねると、問題は：もし画像に歩行者が含まれているかを判断する簡単なルールがあれば、この問題はとっくに解決されているだろう。

ニューヨーク大学のBob Rehder教授はかつてこう書いた：「説明は学習者に一般的なパターンを探求させますが、それは同時に例外状況を見落とす可能性も引き起こします。結果として、例外が頻繁に発生する領域では、説明はかえって負の効果をもたらす可能性があります。」

Anthropicの共同創設者Chris Olah氏は、GenAIは「構築された」というより「育てられた」ものだとよく言う。

——その内部メカニズムは「創発的」であり、人為的に精密に設計されたものではない。

これは野菜を育てたり花を育てたりするのに似ている。人間は全体の生育条件を設定できるが、最終的に形成される具体的な構造は予測不可能で説明が難しい。

これらのシステム内部を理解しようと試みる際、私たちが見るのは数十億の数値からなる巨大な行列だけである。これらの数値は重要な認知タスクを完了できるが、どのようにそれを行っているかは現在誰も知らない。

AIシステムの非解釈性は、その行動の境界を明確に設定できないため、多くの重要な分野でAIを使用できないことを意味する。そして、一度エラーが発生すれば、その結果は極めて重大になる可能性がある。

実際、特定のシナリオでは、モデルの非解釈性が法的にその使用を直接阻止している。

同様に、AIは科学分野で大きな進歩を遂げた。

例えば、DNAやタンパク質配列の予測能力は大幅に向上したが、AIによって発見されたこれらのパターンや構造は、人間にはしばしば理解しがたく、生物学的な真の洞察をもたらさない。

メカニズム解釈性とは、主に、あるタスクを実行する際にモデル内のどの特定の「ニューロン」や「回路」が役割を果たしているかを見つけ出そうとする試みである。

研究者はこれによってモデルの思考プロセスを追跡し、「ハードウェア原理」という形でその行動を説明したいと考えている。

多くの人は、この詳細な理解がAIの安全性にとって計り知れない価値があると考えている。それは、研究者がすべての条件下で期待通りに動作し、すべてのリスクを確実に回避するモデルを正確に設計することを可能にするからである。

Google：騙された気分だ

メカニズム解釈性の研究は、研究者の真理への信念に根ざしている：「知識は力なり；名付ければ理解し、理解すれば制御できる」。

Googleで働いていた頃、Chris Olah氏はLLMの「ブラックボックス」を開け、モデルの内部動作を理解するための体系的な研究を試みた。

メカニズム解釈性の初期段階（2014年〜2020年）は主に画像モデルに焦点を当て、研究者は人間が理解できる概念に対応するニューロンをいくつか特定することに成功した。

これは初期の神経科学における仮説、例えば脳には特定の人物や概念を認識するニューロンが存在し、「ジェニファー・アニストン・ニューロン」と呼ばれていることに似ている。

CLIPモデルの最終層の一部のニューロン

Anthropic：AI解釈性に邁進

Anthropic設立時、共同創設者のChris Olah氏とDario Amodei氏は、解釈性手法を言語モデルに適用することを決定した。

Dario Amodei

すぐに、彼らはモデル内で言語理解に不可欠な基本的なメカニズム（例えばコピー、シーケンスマッチングなど）を発見した。

同時に、画像モデルと同様に、特定の単語や概念を表す解釈可能なニューロンも見つけた。

しかし、問題の複雑さは一時的に解釈性の研究進展を妨げていたが、後に信号処理分野に既存する技術、つまり

スパース自己符号化器（sparse autoencoders、SAE）がニューロンの組み合わせを識別できることを発見した。これらの組み合わせは、人間の理解に近い概念をより明確に表現できる。

個々のニューロンと比較して、これらの組み合わせは「文字通りまたは比喩的な躊躇と回避」や「不満を表現する音楽ジャンル」といったより微妙な概念を表現できる。

これらの組み合わせは「特徴」（features）と呼ばれ、スパース自己符号化器手法を用いて、最も先進的な商用モデルを含む様々な規模のモデルがマッピングされた。

最近、彼らの研究は「個々の特徴の追跡と操作」から「一連の特徴の追跡と操作」へと拡張され、「回路」（circuits）と呼ばれている。

これらの回路を利用することで、モデルの思考経路を「追跡」できる。

例えば、モデルに「ダラスがある州の州都はどこですか？」と尋ねると、モデル内部では「包含関係」（located within）の回路が有効になり、「ダラス」という特徴が「テキサス」を活性化させ、続いて別の回路を通じて、「テキサス」と「州都」という2つの概念が共同で「オースティン」を活性化させる。

回路追跡手法を用いて、AnthropicはClaude 3.5 Haikuが使用する内部メカニズムを研究した。

Google DeepMind：SAE研究を一時停止

SAEを安定かつ効果的に機能させるのは非常に難しいことが判明した。

これはDeepMindが最近SAEの優先度を下げる決定をした理由の一つである。

DeepMindの研究チームは技術ブログを発表し、スパース自己符号化器に楽観的でない理由を詳細に説明した。

彼らの当初の核となる動機は、解釈性研究分野の多くの人々がスパース自己符号化器（SAE）に多大なエネルギーを注いできたことにある。

しかし、SAEは「真の」特徴の客観的な参照基準を欠いており、言語モデル内の実際の構造と比較できないため、それがどれだけうまく機能しているかを判断するのが難しい。

定性分析ではSAEが何らかの構造（ランダムノイズでは説明できないもの）を確かに捉えていることが示されたが、限界も同様に明らかである——

Neuronpediaに任意の文を入力し、活性化された潜在変数を観察しても、これらの変数が明確な意味論的解釈に対応しないことがしばしばある。

Neuronpediaは当初スパース自己符号化器（SAE）研究のために特別に設計されたプラットフォームだったが、現在は一般的なメカニズム解釈性研究をサポートするオープンインフラストラクチャにアップグレードされている。

SAEの開発を優先し続けるべきかを決定するにあたり、解釈性研究の評価基準をよりマクロに考える必要がある。

伝統的な考え方では、モデル内部に何らかの正確で人間が理解できる「客観的な真実」が存在すると仮定し、リバースエンジニアリングによってそれを明らかにしようとする。

SAEにとって、この理想化されたビジョンは「SAEの潜在変数がモデル内部の規範的な概念集合を捉えることを願う」という形で具体化される。

しかし、現在GoogleはSAEに多数の問題が存在することを明確に認識している：

現状評価：既存のSAE技術はこの目標からかけ離れている。

哲学的疑問：モデル内部にこのような「真の概念」が本当に存在するかはまだ未知数である。

技術的ボトルネック：たとえ真の概念が存在したとしても、SAEには複数の固有の欠陥がある：概念の網羅不足（missing concepts）、ノイズ表現問題（例えば微小な活性化量に解釈性がないなど）、特徴歪み現象（例えば特徴吸収などの異常な変形）、高い偽陰性率（見た目には解釈可能な潜在変数に多数の見落としが存在）

研究チームは精巧に設計された探索実験を行い、そこから得られた重要な新たな発見は：

現在のスパース自己符号化器（SAE）は、特定の重要なタスクで必要とされる「概念」を識別できない；しかし、線形プローブ（linear probe）は有用な方向性を見つけることができる。

これには複数の説明があるかもしれないが、いずれの場合でも、これはSAEが実際のタスクで必要とされる適切なツールではない可能性を示唆している。

いずれか単独のネガティブな結果だけでは強力な結論にはならないが、もしSAEが解釈性研究の大きな突破口であるならば、ベースライン手法を明らかに上回る応用シーンを見つけることはそれほど難しくないはずである。

DeepMind関連研究チームは次のように考えている：短期的には、SAEおよびSAEベースの技術が革新的なブレークスルーをもたらす可能性は低い。あるいは、永遠に真の転換点とはならない可能性さえある。

10年の研究、徒労に終わる

メカニズム解釈性という目標は理想化されすぎている可能性がある。

過去10年以上にわたり、大手企業や研究機関は、複数の解釈性研究プロジェクトに多くの人材と数百万ドルを投入してきた。

これらの研究は一時的な興奮と注目をもたらすことがしばしばあったが、これまで時間の試練に耐えた成果は一つもない。

特徴可視化

2015年、Mordvintsevらは特徴可視化を提案し、画像分類器の動作原理を理解するために、どの特徴が個々のニューロンを活性化するかを発見した。

しかし、この技術の信頼性と実用性については依然として疑問が残る。

ニューロンはしばしば複数の関連性のない特徴に反応し、その役割を簡潔に説明することは難しい。

顕著性マップ

顕著性マップは、人間が見ても画像の中で最も重要な部分を強調しているように見える説得力のある画像を生成した。

しかし、2020年の研究は、顕著性マップが訓練モデルが学習した内容やその焦点の一部を捉えていないことを示唆している。

論文リンク：https://arxiv.org/abs/1810.03292

ガイド付きバックプロパゲーションは顕著性マップ技術の一種で、ランダムモデルと実際の訓練モデルに対して類似の解釈を提供するため、それは実際には何も説明していないことを示唆している。

BERT解釈性の錯覚

言語モデルの解釈技術にも同様の欠陥が存在する。

2021年、研究者はBERTモデル内の単一のターゲットニューロンを最大限に活性化させる文章を見つける方法について記述し、最初は説得力のあるパターンを発見した。しかし、異なるデータセットを使用すると、そのパターンは消失し、同じニューロンが全く異なる種類の文章に最も強く反応した。

論文リンク：https://arxiv.org/abs/2104.07143

Chinchilla回路分析

2023年、DeepMindの論文で解釈性手法が700億パラメータのChinchillaモデルに適用されたが、結果はまちまちだった。

論文リンク：https://arxiv.org/abs/2307.09458

著者は特定のタスクに関連するように見えるニューロンの集合を発見したが、このプロセスには数ヶ月を要し、この方法で大規模モデルを理解することの実用性には疑問が残る。

さらに、タスクの形式がわずかに変更されると、識別ノードのパフォーマンスが低下し、それらが部分的な説明しか提供しておらず、モデルの他の部分も関与していることを示唆している。

迷い道から戻る

このような「ボトムアップ」「局所から全体へ」のメカニズム解釈性研究は、根本的に間違っているのかもしれない？

結局、MRIは脳の血流を検出して、どの領域が特定の思考やタスクに関連しているかを明らかにできるが、人の思考を個々のニューロン単位で追跡することはできない。

非営利団体AI FrontiersのDan Hendrycks氏（下図の男性）とLaura Hiscott氏（下図の女性）は、AIの解釈性研究はより高次の特徴から始めるべきだと考えている。

研究者は、気象学者、生物学者、心理学者がしばしば対象の高次特徴をまず研究するように、他の複雑なシステムの手法を借用すべきである。

私たちも、基底メカニズムから出発する「ボトムアップ」手法ではなく、「トップダウン」のアプローチを採用してAIの解釈性研究を推進すべきである。

2001年、Leo Breiman氏は画期的だが当時は非常に論争を呼んだ論文を発表し、複雑で不透明な機械学習システムは、整然とした統計公式よりもはるかに強力であると主張した。

この視点から見ると、メカニズム解釈性は「合理的な美学」を惹きつける研究方向であり、広範な将来性を持つ実用分野ではないのかもしれない。

そして、メカニズム解釈性に固執することは、おそらく深層学習システムが本質的に「全く異なる姿」になることを望んでいるのかもしれない。

参考資料：

https://www.ai-frontiers.org/articles/the-misguided-quest-for-mechanistic-ai-interpretability

https://www.darioamodei.com/post/the-urgency-of-interpretability

https://www.alignmentforum.org/posts/4uXCAJNuPKtKBsi28/sae-progress-update-2-draft

10年の苦心も実らず、数千万の費用が無駄に！AIブラックボックスは未解決、Googleは面目を潰す

短いURLをシェア