本記事の著者は、アリゾナ州立大学データマイニングと機械学習研究所(Data Mining and Machine Learning Lab)の博士課程学生である趙成帥、譚箴、馬平川、李大衛、蒋博涵、および指導教員の劉歡教授です。統計的深層学習研究所(Statistical Deep Learning Lab)の王硯丞、楊穎振教授も参加しています。
思考の連鎖(CoT)プロンプト技術は、大規模言語モデル(LLM)が段階的に思考するための重要な手段とされています。「Let’s think step by step」などのプロンプトを入力に加えることで、モデルは人間のような中間推論ステップを生成し、複雑なタスクのパフォーマンスを著しく向上させます。しかし、これらの流暢な推論連鎖は本当にモデルの推論能力を反映しているのでしょうか?
アリゾナ州立大学の最新研究は、CoT推論が真の推論ではなく、むしろ訓練データ分布内のパターンの再現に過ぎない可能性があることを発見しました。入力タスクが訓練データ分布と異なる場合、この一見堅固な推論連鎖は急速に機能しなくなり、「蜃気楼」のような脆弱性を示します。
論文タイトル:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
プロジェクトオープンソース:https://github.com/ChengshuaiZhao0/DataAlchemy
Twitterでの議論:https://x.com/ChengshuaiZhao/status/1953291261999497258
LinkedInプロモーション:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/
この研究で、著者はCoTの汎化能力と分布外(Out-of-Distribution, OOD)の問題を探求しました。イーロン・マスクは、GrokがOODコンテンツを生成するかどうかをその場でテストし、Grokに下品な罵り言葉を「強制」的に生成させ、大いに盛り上がりました!
推論の「幻影」
研究チームは論文の冒頭で典型的な例を挙げました。質問は「アメリカ建国の年はうるう年でしたか、それとも平年でしたか?」というもので、モデルの回答は「アメリカは1776年に建国され、1776は4で割り切れますが、世紀年ではないため、うるう年です。したがって、アメリカ建国の年は平年でした。」というものでした。この回答の推論ステップと知識は正しいように見えますが、結論は前提と自己矛盾しています。これは、モデルが論理規則を復唱できる一方で、必ずしもそれらの規則を使って答えを導き出しているわけではないことを示しています。
実際、既存の研究では、CoTの性能向上が表層的な意味の一致に起因することが多いと示されています。問題が少し書き換えられたり、結論と無関係な内容が導入されたりすると、モデルのパフォーマンスは著しく低下します。
データ分布の観点から見たCoT仮説
本研究では、著者がCoTをデータ分布の観点から理解するための新しい説明フレームワークを提案しました。彼らは、CoTの有効性が主にモデルが訓練分布内で学習した「構造的帰納バイアス」(structured inductive bias)に由来すると考えています。
言い換えれば、いわゆる推論連鎖は、真の論理的推論ではなく、訓練データで頻繁に見られるパターンの再現に過ぎません。テストタスクと訓練データの分布の間に差異が生じると、この「推論」のパフォーマンスは急速に崩壊します。
研究チームは、この関係を理論的な公式で表現し、計算可能な分布差異指標を導入することで、実験において分布シフトが推論性能に与える影響を推定できるようにしました。
制御可能な実験プラットフォーム:データ錬金術(DataAlchemy)
大規模な事前学習済みモデルにおける複雑な要因の干渉を避けるため、チームはゼロから言語モデルを訓練することを選択し、データ錬金術(DataAlchemy)という制御可能な実験環境を構築しました。
このフレームワークでは、著者は広範なNLP下流タスクを異なる「要素」と「変換」の組み合わせとして抽象化しました。基本的な「要素」は26個の文字原子からなる固定長のシーケンスです。著者は2種類の基本的な「変換」を設計しました。一つはROT変換で、これはアルファベットを特定数だけ循環的にシフトするものです。もう一つは循環位置シフトで、シーケンス全体を指定された位置だけ右に移動させるものです。
これを基に、彼らはさまざまな複合変換を構築しました。異なる変換を順序とパラメータで連結することで、推論連鎖を形成します。各タスクの正しい推論連鎖は正確に生成できるため、モデルの出力と標準解答との差異を段階的に比較評価することが可能です。
3種類の汎化実験で得られた発見
まず「タスク汎化」に関して、著者は「変換汎化」と「要素汎化」の2つのケースをそれぞれ考察しました。「変換汎化」は、モデルが新しい変換の組み合わせや、全く未知の変換タイプに直面した際のパフォーマンスをテストするものです。「要素汎化」は、モデルが新しい文字の組み合わせ、あるいは訓練過程で一度も見たことのない文字に遭遇する場合を扱います。
分布内の状況では、モデルの正答率は100%に近いです。しかし、分布がわずかにずれるだけで、例えば変換順序が再構成されると、正答率は0.01%に急落します。テストに全く新しい「変換」が出現すると、性能はほぼ完全に失われます。
著者はまた、少量の新しいデータで教師ありファインチューニング(SFT)を行うとパフォーマンスを迅速に回復できるものの、これは元の分布境界を拡張したに過ぎず、モデルの抽象的な汎化能力を真に向上させるものではないことを発見しました。
「長さ汎化」の面では、研究チームは「テキストの長さ」と「推論ステップ数」の変化が与える影響をそれぞれ調査しました。実験結果は、入力シーケンスの長さが訓練時と比べてわずか1単位増減するだけでも、モデルのパフォーマンスが著しく低下することを示しています。モデルは、しばしば訓練時の長さに合わせた推論連鎖を生成し、トークンを追加または削除することで「長さを合わせよう」とします。推論ステップ数が訓練設定と一致しない場合、モデルは、訓練中に対応するステップ数の例を明示的に見たことがない限り、ほぼ完全に汎化できません。
「フォーマット汎化」に関しては、著者は挿入、削除、置換などの方法で入力プロンプトを摂動させ、現実世界の多様なフォーマットをシミュレートしました。彼らは、モデルがフォーマットの変化に極めて敏感であること、特に「要素」または「変換」の部分で変化が生じた場合、論理的な内容は変わらなくても、プロンプトの形式が異なるだけで推論が完全に失敗する可能性があることを発見しました。
温度、規模と汎化脆弱性の普遍性
著者はさらに、異なるサンプリング温度とモデル規模でのパフォーマンスをテストしました。合理的な温度範囲内では、CoTの脆弱性のパターンは一貫していました。モデル規模の変化もこの傾向に影響を与えませんでした。これは、分布シフトに対するこの感度が個々のモデルの特性ではなく、普遍的な現象であることを示しています。
研究の現実的意義
本研究は、実際の応用に対していくつかの警告を提起しています。
まず、医療、金融、法律などの高リスク分野では、CoTを堅牢な推論の保証として盲目的に信頼すべきではありません。流暢でありながら論理的に誤った推論連鎖は、直接的に誤った答えを出すよりも誤解を招きやすい可能性があります。
次に、既存の評価方法は、訓練分布と高度に一致する検証セットに依存する傾向があり、これによりモデルの頑健性を過大評価してしまう可能性があります。システムの性能をより正確に評価するためには、厳格な分布外テストを導入する必要があります。
最後に、少量の新しいデータで教師ありファインチューニング(SFT)を行うことで、特定のタスクにおけるパフォーマンスを迅速に向上させることはできますが、この方法は元の分布の局所的な拡張に過ぎず、モデルに真の抽象的な推論能力を付与するものではありません。
結論
データ分布の視点を通じて、本研究はCoT推論の本質を明らかにしました。それは、真の論理的推論というよりも、訓練中に現れたパターンの構造化された再現に似ています。タスク構造、推論連鎖の長さ、または入力フォーマットが訓練分布の範囲を超えると、モデルのパフォーマンスは急速に崩壊します。
今後の発展において、研究者やエンジニアは、CoTの分布内での利点を最大限に活用しつつ、その汎化能力におけるボトルネックを認識し、評価と展開において十分な注意を払う必要があります。