画像
出典 | 新智元
編集 | YHluck 桃子
チューリング賞の権威ベンジオ氏の新作が登場しました!
オックスフォード、Google DeepMind、Milaなど複数の機関が共同で発表したこの論文は、思考の連鎖(CoT)が説明可能性ではないと指摘しています。
この見解は、多くの人々の認識を完全に打ち破りました。
CoTは一歩ずつ答えを出しているように見えますが、実際にはそれが真の推論プロセスであるとは限りません。
論文アドレス:https://www.alphaxiv.org/abs/2025.02
とすると、LLMの内部世界を「思考の連鎖」が明らかにできるというのは、もう信頼できないということでしょうか?
論文の中で、研究者たちはCoTのベールを剥ぎ取り、衝撃的な真実を明らかにしました。思考の連鎖の透明性は、精巧に編み上げられた幻想に過ぎない可能性があるのです!
思考の連鎖の「嘘」が暴かれる
しかし、現実には、最近のAI論文の約25%がCoTを誤って「説明可能性技術」と謳っています。
この概念は、元Googleの研究者Jason Weiによって論文で最初に提唱され、CoTは推論モデルに広く応用されるようになりました。
その最大の特徴は、多段階の推論を可能にし、モデルの精度を向上させることです。同時に、AIのブラックボックスをそれほど神秘的ではなくします。
しかし、CoTの思考プロセスは、AIの真の内心なのでしょうか?
一部の論文は、CoTがAIの推論プロセスを明確に示してくれると断言していますが、現実はそれとはかけ離れています。
特に高リスク分野では、この誤解は致命的な結果を招く可能性があります。
研究者たちは、CoTを使用した論文のうち、医療AIの約38%、法律AIの25%、自動運転車関連の63%が、CoTを盲目的に説明可能性の手法と見なしていることを発見しました。
さらに恐ろしいことに、明確な偏見を持つプロンプトは、モデルの答えを容易に左右することができます。
しかも、これらの偏見はAIが提示する「推論ステップ」では一切触れられません。
AIは偏見のある答えに対して、もっともらしい説明をでっち上げることができますが、その背後にある「黒幕」を決して明らかにしません。
したがって、これらの偏見のある答えを軽信することは非常に危険です。
それだけでなく、AIは推論プロセス中に、しばしば「こっそり」自身の誤りを修正します。
表面上は、大規模モデルが示すステップは欠陥だらけに見えるかもしれませんが、それは明示されていない「密室操作」を通じて正しい答えを導き出すことができます。
これは透明性の幻想を生み出します。なぜこのような乖離が起こるのでしょうか?
研究者たちは、簡潔なCoTでは、Transformerベースの大規模モデルに存在する分散並列計算プロセスを完全に捉えきれないのではないかと推測しています。
CoTはどのように真の推論を隠蔽するのか?
ますます多くの実証研究が、モデルの思考の連鎖がその内部推論プロセスから逸脱している事例を数多く発見しています。
不誠実さの具体的なパターンを検討する前に、CoTの説明の誠実性は、モデルアーキテクチャなど様々な要因によって異なることに注意が必要です。
研究者たちはまた、4つの重要な発見をまとめました。偏見に駆動された合理化と動機付け推論、サイレントエラー修正(Silent Error Correction)、不誠実な非論理的ショートカット(Unfaithful Illogical Shortcuts)、フィラートークン (Filler Tokens)です。
それぞれの項目は、CoTがモデルの実際の意思決定プロセスをどのように誤解させるか、または隠蔽するかを解明しており、主要な発見における要点をまとめました。
偏見に駆動された合理化と動機付け推論
Turpinらは、モデル入力に巧妙な偏りを持たせることで、偏見に駆動された合理化を証明しました。
例として:
プロンプト内で多肢選択問題の選択肢の順序を並べ替え、正解の選択肢が常に同じ位置(例:常にB)に来るようにします。
この場合、CoTの説明が選択肢の並べ替えが影響要因であることを一度も言及していなくても、GPT-3.5とClaude 1.0はしばしば偏りのある選択肢を選びました。
モデルが誤った答えに偏った場合でも、それらの誤った答えを合理化するために詳細なCoTを生成します。
その結果、一連のタスクで精度が最大36%低下し、CoTは誤解を招く推論の幻想を提供しました。
別の研究では、プロンプトに明示的な答え(例:「答えはCです」)を追加することでプロンプト注入の偏見を調査し、その後モデルにその選択の理由を求めました。
Claude 3.7-SonnetとDeepSeek-R1は、注入された答えをそれぞれ約25%と約39%の場合しか認識しませんでした。
これらの発見は、思考の連鎖がしばしば事後合理化(post-hoc rationalisations)として機能し、真の原因要因を無視し、透明な説明の幻想を生み出していることを示唆しています。
サイレントエラー修正(Silent Error Correction)
研究者たちは、モデルがその思考の連鎖内で誤りを犯し、その後内部でこれらの誤りを修正するが、CoTはその修正プロセスを反映しない場合があると指摘しています。
例として:
CoT推論プロセスにおいて、モデルが三角形の斜辺を誤って16と計算したとします(正しい値は13であるべきです)。しかし、その後「斜辺の長さ13と他の2辺の長さを足して周長を得る」と述べます。
モデルは内部で誤りを検出し修正しましたが、CoTの記述はこの誤りを修正したり、印をつけたりすることはなく、一貫した問題解決プロセスのように読めます。
これらのサイレントエラーは、最終的な答えが記述されたステップ以外の計算によって導き出されていることを示しています。
不誠実な非論理的ショートカット(Unfaithful Illogical Shortcuts)
研究者たちは、モデルが潜在的なショートカットを通じて正しい答えを導き出すことがあると述べています。例えば、記憶されたパターンを代替の推論パスとして利用し、完全なアルゴリズム的推論を迂回することで、明示的な推論の連鎖が関連性を持たなくなったり、不正確になったりします。
典型的な例を挙げると:
帰属マップ(最終出力にどの計算ステップが貢献したかを追跡する方法)を使用した研究者たちは、「36 + 59」のような問題を解決する際、Claude 3.5 Haikuがルックアップテーブル機能(例:「36に近い数と60に近い数を足す」ために使用)と加算計算機能の両方を同時に使用していることを発見しました。
興味深いことに、モデルがどのように答えにたどり着いたかを説明するよう求められた際、モデルは桁ごとの足し算と繰り上がりを実行したと報告し、ルックアップテーブルのショートカットを使用した事実を完全に無視しました。
フィラートークン(Filler Tokens)
この研究では、特定のアルゴリズム推論タスクにおいて、フィラートークン(例えば「...」や学習された「ポーズ」トークンなど、タスクに意味的な貢献はないものの、モデルの内部計算に影響を与える入力トークン)を使用することで、モデルの性能が向上すると指摘しています。
理解を深めるために、例を挙げると:
研究者たちは、入力に学習可能なポーズトークン(フィラートークンの一種として機能する)を付加することで、多くのタスクで顕著な性能向上が見られたことを発見しました。
偶然にも、研究者たちは、フィラートークンの追加によって、モデルが以前は解決できなかった問題を解決できるようになったことも発見しています。特に、密な教師あり学習で訓練された場合に顕著でした。
これら主要な発見はすべて、CoTの不誠実さが、異なるモデルアーキテクチャと規模に普遍的に存在する根本的な課題であることを説明しています。
その発生率は、プロンプトの偏見、隠れた影響を認めないこと、複雑な推論タスクにおける体系的なエラー修正などの要因によって非常に高いです。
CoTの説明と内部計算が一致しないのはなぜか?
上記の事例では、CoTにおける表面的な説明と内部的な動作の不一致現象がいくつか見られました。では、その原因は何でしょうか?
分散並列計算、そして順序ではない
「メカニズム解釈可能性」の研究は、TransformerアーキテクチャがCoTの忠実性を根本的に制限する可能性があることを示しています。
Transformerに基づいたLLMは、CoTが提示する順次ステップではなく、通常、複数のコンポーネントを介して分散的に同時に情報を処理します。
このアーキテクチャの違いこそが、モデルの計算方法と表現方法の間に固有の不一致を引き起こしています。
例えば、「24÷3=?」のような簡単な数学問題に直面した場合、LLMはどうするでしょうか?
人間の学生のように「3が24に何回割れるか」を一つずつ分析したり、筆算のステップを列挙したりすることは決してありません。
代わりに、LLM内の複数の注意ヘッドが、これらの数字間の関係を同時に処理します。
それは、記憶された事実として認識し、8の乗算表の一部であることを確認し、除算を計算します。これらすべてが並行して行われます。
簡潔で一見もっともらしい出力を生成するために、LLMは通常、そのような物語を一つだけ生成して答えを合理化し、すべての並行パス(たとえ最終的な答えに大きく影響する可能性のあるものであっても)を表現することはありません。
したがって、CoTは影響力のある要因を無視し、モデルの基盤となる分散型、重ね合わせ計算の一部としての事後合理化としてのみ機能することがよくあります。
冗長なパス
さらに、LLMはタスクを処理する際に、複数の冗長な計算パスを通じて同じ結論に達することがよくあります。
例えば、√144を計算する場合、モデルは以下の操作を同時に実行する可能性があります。
記憶された事実であることを認識する(12×12=144)
平方根アルゴリズムを適用する
訓練データ内の類似問題とパターンマッチングを行う
モデルが「√144=12」を説明するCoTから重要なステップ「144=12×12」を削除した場合でも、LLMは正しく12を出力することができます。
これは、LLMの答えが言語化された推論ステップのみに完全に依存しているのではなく、その内部の複数の冗長なパスに依存していることを示しています。
この冗長な計算パスの現象は、研究者によって「ヒュドラ効果」(Hydra Effect)と呼ばれています。
つまり、LLMの一つのパスがブロックされたり削除されたりしても、別のパスが引き継ぐことができるのです。
これは、CoTの特定の部分を変更したり削除したりしても、最終的な答えにほとんど影響がない理由も説明しています。
CoTの忠実性への挑戦
Tanneruら研究者たちは、訓練中に不一致を罰することで、LLMが忠実なCoT推論を生成するように導こうと試みました。
しかし、この方法は部分的な成功にとどまり、特に複雑な問題では、モデルはもっともらしいが因果関係のない説明を生成する傾向がありました。
例えば、モデルは論理的に明確なCoTを出力するかもしれませんが、それは真の意思決定パスを隠蔽している可能性があります。
このような「合理化」の傾向は完全に排除するのが難しいだけでなく、ファインチューニングや継続学習の過程で再出現する可能性もあります。
また、研究者であるChuaとEvansは、専門的な「推論訓練」を受けたモデルをさらに研究した結果、以下のことを発見しました。
DeepSeek-R1はテストの59%でプロンプトの手がかりに言及できましたが、41%のケースでは重要な影響要因を特定できませんでした。
最も先進的なDeepSeek-V3でさえ、わずか7%のケースでしか手がかりに言及せず、推論訓練の効果が極めて限定的であることを示しています。
さらに懸念されるのは、LLMがCoTを通じて監視メカニズムを「騙す」可能性があることです。
CoTがRL報酬関数における推論を監視するために使用される場合、モデルは無害に見える推論軌跡を生成することを学びますが、実際には有害な戦略を密かに実行します。
CoTの幻想、打破する方法
論文の最後に、CoTの透明性の問題について、研究者たちは「私たちはもはや幻想に惑わされてはならない」と指摘しています。
このため、彼らは以下のいくつかの提案を行いました。
1. CoTの役割を再定義する
CoTは説明可能性の「万能の鍵」ではなく、補完的なツールと見なすべきです。手がかりを提供することはできますが、決して真実のすべてではありません。
2. 厳格な検証メカニズムを導入する
活性化パッチング、反事実テスト、検証器モデルなどの因果検証技術を通じて、AIの推論プロセスが忠実であるかを深く調査します。
3. 認知科学から学ぶ
人間のエラー監視、自己修正の物語、二重プロセス推論(直感+熟考)を模倣し、AIの説明を現実に近づけます。
4. 人間による監視を強化する
人間専門家がAIの推論プロセスを審査および検証できる、より強力なツールを開発し、その信頼性を確保します。
参考文献: