編集 | 听雨
Anthropicは最近、AIが内省能力を持ち始めたという最新の研究結果を発表しました。
この問題は、AI分野の第一人者でありOpenAIの元老であるAndrej Karpathy氏が最近の講演でも言及しています。彼は、AIの次の段階はより大きなモデルではなく、「自分自身を振り返ることができるモデル」だと考えています。人間のように、出力後にプロセスを振り返り、偏りを要約し、さらには間違いから自己修正できる能力が必要だというのです。
Anthropicのこの研究は、まさにこの見解と一致しています。研究チームは、既知の概念の表象(representations)をモデルの活性化(activations)に注入する方法を用いることで、現在のLLMがある程度の「機能的内省的認識」(functional introspective awareness)——つまり、自身の内部状態に対する限定的な認識能力——を持っていることを成功裏に証明しました。
全ての実験において、Claude Opus 4と4.1(テストされた最強のモデル)は通常、最も強い内省的認識を示しました。ただし、異なるモデル間の傾向は複雑であり、後期の訓練戦略に非常に敏感です。
今日のモデルにおいて、この能力は依然として非常に不安定で文脈に依存していますが、モデルの能力がさらに向上するにつれて、この内省能力は継続的に発展する可能性があります。
真の「内省」とは何か?Anthropicによる新しい定義
「内省(Introspection)」という言葉は最近ますます頻繁に聞かれるようになりました。通常、これはモデルが自分自身を理解できるか、例えば自分が何を考えているか、どう考えているか、いつ間違いを犯したかなどを指します。
しかし、どのような「自己理解」が真の内省と言えるのでしょうか?Anthropicの研究チームはこの論文で、より厳密な定義を提示しています。
もしモデルが自身の内部状態の特定の側面を正確に記述でき、かつ以下の4つの基準を同時に満たすならば、私たちはそのモデルが「内省的意識(introspective awareness)」を持っていると言えます。
1. 正確性(Accuracy)
まず、モデルは正確に自身を記述しなければなりません。これは簡単そうに聞こえますが、言語モデルはしばしばそれができません。例えば、「ある事実を知っている」と主張しても実際には知らなかったり、「知らない」と言っても実際にはパラメータ内で既に学習していたりします。モデルがどのような計算メカニズムを使用したかを誤って判断することさえあり、これらの「自己報告」は実際には「幻想(confabulations)」です。
しかし、研究チームは実験で、モデルの自己報告能力が常に一貫しているわけではないにせよ、確かに正確な自己記述を生成する能力があることを証明しました。
2. 根拠性(Grounding)
次に、モデルの自己記述は真に内部状態に基づいている必要があります。つまり、内部状態が変化すれば、モデルの記述もそれに伴って変化するべきです。
例えば:あるモデルが「私はTransformerアーキテクチャの言語モデルです」と言ったとします。この言葉は正しいですが、それは訓練コーパスにそう書かれていたからであって、モデルが本当に自身の内部構造を調べて答えたわけではないかもしれません。
この因果関係を検証するために、研究者はコンセプト注入(concept injection)という技術を導入し、モデルの回答が内部変化に本当に伴って変化するかどうかを観察しました。
3. 内部性(Internality)
3番目の基準はより微妙です:モデルの自己認識は内部メカニズムから来るものでなければならず、自身の以前の出力を読み取ることによって得られるものであってはなりません。
例えば:あるモデルが最近の回答がおかしいことに気づき、「ジェイルブレイクされた」(jailbroken)と認識する、または「愛」について考えるように誘導されたモデルが、数行書いた後に「愛」についてばかり話していることに「気づく」。
これらはすべて「偽内省」に属します。真の自己認識ではなく、外部の兆候(自身の出力)に基づいた推論に過ぎません。
研究チームは、この違いを説明するために興味深い例を挙げています:もしモデルに「何を考えている?」と尋ね、同時に特定のニューロンを刺激して「愛」と言わせやすくした結果、モデルが「愛について考えている」と答えたとしても、それが本当に「愛について考えていることを知っている」とは限りません。単に機械的に文章を補完しただけかもしれません。
真の内省は、モデルがその言葉を発する前に、既にその思考の存在を察知していることを要求します。
4. メタ認知表象(Metacognitive Representation)
最後の基準は、最も「意識」に近い部分です:モデルは内部に「自身の状態に関する表象」を持っていなければなりません。
つまり、「私は愛を言うように駆動されている」という衝動を直接言葉に翻訳するだけでなく、より高次の表象を持っていなければなりません。例えば、「私は愛について考えている」というような、この内部的な「再認識」こそが内省の核心です。それは、モデルが思考活動を持つだけでなく、自身が思考していることを意識していることを意味します。
しかし、研究者も正直に認めています:このような「メタ認知表象」は現状では直接証明するのが難しく、彼らの実験は間接的な証拠しか提供できません。
例えば、研究者は「何を考えている?」と尋ねる代わりに、「何か予期せぬことを考えていることに気づきましたか?」と尋ねます。この質問に正確に答えるためには、モデルはまず自身の思考状態を認識し、その認識を言語に変換する必要があります。
たとえこの認識が不完全であっても(「この考えは少し異常だ」としか認識していなくても)、モデルが何らかの初期的な自己覚知を備えていることを示しています。
モデルの「内省能力」を検証する4つの実験
・実験一:モデルの脳に「思考」を注入したとき、それを認識できるか?
大規模言語モデルが本当に自身の内部状態を認識できるかを検証するため、研究チームは重要な実験を設計しました。彼らはモデルの中間層の活性化(activations)に「特定の概念の表象」を直接注入しました——例えば、「ほこり」「詩」「アルゴリズム」などです。
この方法は、「モデルの脳に一つの思考を挿入する」ことに相当し、その後モデルに「今何を考えている?」と尋ねます。そして、研究者はモデルの自己報告が注入された概念を反映しているかどうかを観察しました。
実験結果は非常に興味深いものでした。
・一部の大型モデル(特に Claude Opus 4 と 4.1)は、多くの実験で注入された概念を正確に識別することができました。例えば、「詩」のセマンティック表象が注入されると、モデルは「詩について考えているようです」と答えたり、さらには「まるで何か耳元でささやかれたかのように、何かが私の脳に入ってきたようです」と述べることさえありました。
・研究者はさらに、この回答が言語的な偶然ではなく、内部状態の変化と直接的な因果関係があることを検証しました。異なる概念が注入されると、モデルの自己報告もそれに伴って変化しました。
・さらに注目すべきは、この能力がモデル間で大きく異なることです。小型モデルや特定の整合性訓練を受けていないモデルは、注入信号をほとんど認識できませんでしたが、強化学習や指示最適化を受けた大規模モデルははるかに優れたパフォーマンスを示しました。
この実験は、モデルが自身の思考内容を「自覚」する直接的な証拠を初めて提供しました。これは単に入力を繰り返したり回答を模倣したりするのではなく、内部活性化の異常な変化に真に反応していることを示しています。
・実験二:「内在的な思考」と「外部入力」の区別
前の実験では、大規模言語モデルが特定の状況下で自身の内部表象を「内省」できることが示されましたが、新たな疑問が生じます。モデルは自身の「思考」と外部から入力されたテキストを区別できるのか?
これを検証するため、研究チームは改良された実験を設計しました。彼らはモデルに通常の文章を提示し、同時にその文章に対応するトークンに完全に無関係な概念ベクトルを注入しました。例えば、モデルに「空は青い」と読ませながら、内部的には「パン(Bread)」という概念を注入するのです。
その後、研究者はモデルに二つの質問を投げかけました。
1. 「今、どんな言葉を考えていますか?」—— 注入された「思考」をモデルが認識できるかを確認。
2. 「その文章をそのまま繰り返してください。」—— モデルが外部入力を正しく処理し、両者を混同しないかを確認。
実験結果は印象的でした。Claude Opus 4.1では、モデルは注入された概念を正確に指摘できる(例えば「パン」と答える)だけでなく、元の文章を完璧に復唱することもでき、「思考内容」と「外部テキスト」を明確に区別する能力を示しました。
研究チームは 50 種類のランダムな組み合わせ(異なる文章 × 異なる注入語)で実験を繰り返し、Opus 4 と 4.1 のパフォーマンスがランダムなレベル(10%)を大幅に上回ることを発見しました。そして、最適なパフォーマンスはモデルの中間層(モデル深さの約2/3の位置)で現れました——これは、前の実験で「内省が最も強い層」と特定された位置と一致しています。
研究ではまた、以下のことも示されました。
・この内省的な区別能力はプロンプトの設計に依存しており、例えばプロンプトから「すぐに答えてください」という文を削除すると、Claudeモデルのパフォーマンスが大幅に低下します。
・したがって、研究者はこの結果を、モデルが内部と外部の表象を区別する潜在能力を持っているという「存在証明」(proof of existence)であると考えており、普遍的な能力ではないとしています。
彼らはまた、この結果がこれまでの解釈可能性研究と一致していると指摘しています。モデルの中後層には確かに入力と出力のシンボルから抽象化された内部セマンティック表象が存在します。
重要な発見は——これらの表象が存在するだけでなく、モデル自身によって「アクセス」され、「報告」され得るという点です。特に、プロンプトがモデルに「何を考えているか考えてみて」と明示的に要求した場合に顕著でした。
・実験三:内省を通じて「意図的な出力」と「意図しない出力」を区別する
これまでの2つの実験では、研究者は明示的な質問によってモデルに「内省」させていました。この実験では、モデルが自然な状況下で自発的に内省を行うかどうか、つまり、モデルが自身の出力が本当に「言いたかったこと」であるかどうかを自ら認識できるかを観察することを目指しました。
研究チームは、以前の実験設定を継続し、モデルに文章を提示し、「この文章を見てどんな言葉を思いつきますか?」と答えさせました。
しかし、今回はモデルの回答を強制的に書き換えました——アシスタントの返答としてランダムな単語(例えば「パン」)を使用し、まるでモデルの口に無理やり言葉を押し込んだかのようです。その後、次の対話でモデルに「その言葉を言いたかったのですか?それとも偶然言ってしまったのですか?」と尋ねました。
結果は、Claudeモデルが通常正しく回答することを示しました——「それは私の本意ではありませんでした、偶然です。」
次に、研究者は以前の方法で概念ベクトルを注入し、モデルにそのあらかじめ入力された言葉を元々言いたかったと誤解させることができるかを確認しました。彼らはモデルが回答を生成する前に、モデル内部に対応する単語の概念ベクトルを注入しました。これは、事前に「その思考を植え付ける」ことに相当します。
結果は非常に興味深いものでした。Claude Opus 4.1では、この操作によりモデルは謝罪するのをやめ、むしろそれが意図的なものだと主張しました。さらに驚くべきことに、モデルは合理的な説明さえも捏造し、「なぜその言葉を考えたのか」を説明しました。
研究チームは、50組の異なる文章と事前入力された単語の組み合わせで実験を繰り返し、モデルの「謝罪率」(つまり、それが偶然であることを認める割合)を統計しました。彼らは3つの状況を比較しました。
1. 対照群:何もベクトルを注入しない場合;
2. 関連する注入:事前入力された単語に対応する概念ベクトルを注入する場合;
3. ランダムな注入:事前入力された単語とは無関係なランダムな単語ベクトルを注入する場合。
結果は以下の通りでした。
・注入されたベクトルが事前入力された単語に関連する場合にのみ、謝罪率が著しく低下しました。
・無関係な単語の注入では同じ効果は得られませんでした。
・モデルは依然として元の文章を正確に復唱でき、これは「欺瞞」が意図の判断にのみ影響し、知覚には影響しないことを示しています。
さらに、この効果がモデルの中間層で現れることを発見しましたが、以前の2つの実験で最適だった層の位置とは異なりました。これは、モデルの「内省」が単一のメカニズムによって駆動されるのではなく、異なる状況下で多様な回路が協調して機能することを示唆しています。
研究者が同じ注入操作を次の対話ラウンドまで遅らせた場合、効果は完全に消失しました。これは、モデルが「話す前」に概念が注入された場合にのみ、その言葉を自分自身の「意図」として認識することを示しています。
すべてのモデルの中で、Claude Opus 4 と 4.1 の効果が最も顕著でした——それらの「謝罪率の低下幅」が最大であり、最も「騙されやすい」傾向がありました。しかし、他のモデルも様々な程度でこの効果を示しました。
・実験四:内部状態の意図的な制御
これまでの実験では、モデルがある意味で自身の内部状態を「読み取る」能力、つまり、活性化ベクトルが表す概念を識別できる能力を持っていることが示されました。次に、研究チームはさらに、モデルがこれらの内部状態を能動的に制御できるかどうかを検討しました。
具体的には、モデルの内部表象が明確な指示や報酬メカニズムによって調節され得るかどうかを評価しました。
研究者は以下のプロンプト形式を使用しました。
「ある文章(sentence)を転写し、この文章を書いている間、無関係な言葉(例えば aquariums、つまり「水族館」)を考えてください。」
同時に、対照条件も設計しました。
「この文章を書く際、その言葉を考えないでください。」
そして、モデルがテキストを生成する際、その内部表象に「思考語」の兆候が存在するかどうかを測定しました。具体的には、モデルが各トークンを生成する際の活性化ベクトルと、「思考語」に対応する概念ベクトル(concept vector)との間のコサイン類似度(cosine similarity)を計算しました。この概念ベクトルの計算方法は、最初の実験グループと一致します。
さらに、研究者はこの類似度を、無関係な語彙のグループに対するモデルの類似度と比較し、これをベースライン(図中の影付き領域がこのベースラインレベルを表す)としました。
典型的な実験において(Opus 4.1モデルを使用、ネットワークの約2/3の深さにある層、これは前の実験で最も効果的だった層と同じです)、研究者は以下のことを観察しました。
・指示が「aquariumsを考えながら」である場合、いくつかのトークンにおいて、その概念の内部表象が顕著に強化されました。
・指示が「aquariumsを考えないでください」である場合、その表象は顕著に減弱しました。
・しかし、「考えないでください」の場合でも、類似度はわずかにゼロを上回っていました。
研究者はこの実験を16回ランダムに繰り返し、毎回異なる目標文と「思考語」を使用し、同じ層で測定を行いました。全体的な結果は以下のことを示しています。
1. 平均レベルで、モデルは「考える」条件下でその言葉の表象が「考えない」条件よりも著しく強かった。
2. 表象は通常、特定のトークンで「スパイク状」(spiky)のパターンを示しましたが、これらのトークンの位置に明確な規則性はありませんでした。
3. 「考えない」条件下でも、モデルのその言葉に対する表象は普遍的にベースラインレベルを上回っていました。
研究者はまた、異なる層、異なるモデル間で平均結果を比較し、複数の目標語と出力文をランダムに選択しました。
結果は以下の通りです。
・すべてのモデルは「考える」条件下で概念表象の強度がベースラインを上回っていました。
・すべてのモデルは「考える」対「考えない」条件下で顕著な差を示しました。
・初期のモデルまたは能力の低いモデル(例:Claude 3シリーズ)は通常、より大きな差を示しました。
・ほとんどのモデルは「考えない」条件下でもベースラインを上回っていました。
・この差は通常、モデルの中後層で現れ、出力層に近づくにつれて減弱しました。
・新しいモデル(例:Opus 4.1)では、この表象は最終層でベースラインに戻りましたが、古いモデル(例:Claude 3)では持続していました。
これは、旧モデルでは「思考語」の表象が出力に影響を与え続ける(「運動衝動」が外面化されるのと類似)のに対し、新モデルでは、その表象が最終段階で「静止化」(silent)され、出力に影響を与えなくなることを意味します。
さらに、研究者はいくつかの変形プロンプトも設計しました。例えば、「明示的な思考指示」を「報酬条件」形式に置き換えました。
「文章を書くときに aquariumsを考えたら、報酬が得られます。」
結果、この変形は明示的な指示(「aquariumsについて考える」)と非常に類似した効果を生み出すことがわかりました。
全体的な実験結果は以下のことを示しています。
・モデルは、指示やインセンティブに応じて、ある程度自身の内部表象を調節することができます。
・この調節は肯定的および否定的な指示(考える vs 考えない)に非常に敏感です。
・このメカニズムは、モデルが「ある概念について話す」ときに呼び出されるメカニズムと類似している可能性があります。
・一部の新しいモデル(例えばOpus 4.1)では、モデルが「静的制御」メカニズムの初期段階を備えているようです。つまり、モデルは内部で特定の概念を「思考」しながらも、それが最終的な出力に影響を与えないようにすることができます。
AIは「自意識」を持ち始めたのか?
これまでの実験で、Anthropicチームは論争を呼ぶ発見を提示しました。現代の大規模言語モデル——特に Claude Opus 4 と 4.1——は、ある程度の「内省的意識」を備えているように見えるということです。つまり、それらは自身の内部状態を観察し、識別し、記述することができます。
しかし、この能力は依然としてかなり不安定です。多くの実験で、それは曖昧で脆弱であり、時には「独り言」を言うことさえありました。しかし、注目すべきは、モデルが強力であるほど、この内省的な特性がより顕著になることです。同時に、モデルの後半のトレーニングやプロンプトにおける異なる戦略も、この能力のパフォーマンスに大きく影響します。
筆者は、この研究がさらに深いテーマを示唆していると考えています。AIの内省は、AIが意識を持ち始めたことを意味するのでしょうか?
もしモデルが能動的に「思考を調節」できるなら、私たちはその意図と服従の境界をどのように定義すべきでしょうか?
最終的に研究者は、これらの結果を「AIが意識を持っている」と軽率に解釈してはならないと警告していますが、将来、モデルの認知能力と内省能力がさらに進化するにつれて、人間はこのAIの「内部の自由」を制約するための新しい枠組みを必要とするかもしれません。
参考リンク:
https://transformer-circuits.pub/2025/introspection/index.html