考えれば考えるほど間違える：CoTの「深く熟考する」ことがLLMの幻覚を促進する触媒に！

一言でまとめると、モデルの「深層思考」を過信するのをやめましょう。この論文は、詳細な実験をもって次を証明しています：知識集約型タスクにおいては、長い推論チェーンは新たな知識を引き出すどころか、モデルが嘘をでっち上げ、「確証バイアス」に陥る温床となります。考えれば考えるほど、的外れな間違いが増えるのです。（元の論文タイトルは末尾に記載、原文リンクはこちらをクリック、Published on arxiv on 08 Sep 2024, by National University of Singapore）

第一段階：コア概念の特定

論文の動機分析

研究背景——近年、大規模言語モデル（LLM）は、複雑な問題、特に数学問題のように段階的な推論を必要とするタスクの解決において、目覚ましい進歩を遂げています。その背後にある重要な技術の一つがテスト時スケーリング (Test-Time Scaling) と呼ばれるものです。これは簡単に言えば、モデルが質問に答える前に、より多くの時間を「思考」に費やさせ、長い「内的独白」や「推論チェーン」（Chain-of-Thought, CoT）を生成させることです。この戦略の直感は単純です。長く、深く考えれば考えるほど、答えはより正確になる可能性が高い、というものです。

研究の空白——しかし、著者らは、この「努力すれば奇跡が起こる」方法が多くの分野で有効であるにもかかわらず、LLMの有名な「弱点」、すなわち正確な事実知識を必要とするタスクの処理に適用できるか否かは不明であることに注目しました。これらの知識集約型タスクでは、モデルは正しく答えるだけでなく、真面目くさって嘘をつく、つまり私たちがよく言う幻覚 (Hallucination) を避ける必要があります。

研究動機——したがって、この論文の動機は非常に明確です。現在流行している「モデルにもっと考えさせる」戦略は、知識Q&Aにおいてモデルをより博識で信頼できるものにするのに役立つのか？それとも、考えれば考えるほど、的外れな間違いが増えるのか？著者らは、包括的な実験を通じてこの未解決の問題に答えようとしました。

論文の主要な貢献点の分析

主な革新点——直感に反する現象の発見：論文は、12の主要な推論モデルと2つの知識集約型データセットに対する詳細なテストを通じて、驚くべき結論に達しました。モデルの「思考時間」を増やすことは、事実に関する質問の回答精度を安定して向上させるものではなく、多くの場合、より深刻な幻覚を引き起こす可能性があります。現象の背後にある深層的な理由の解明：論文は現象の発見にとどまらず、幻覚の変化の内在メカニズムを深く分析しました。彼らは、幻覚の減少はモデルが正しい知識を「思い出した」からではなく、モデルが「考えた結果、やめた」と判断し、回答を放棄 (abstain) したためであることを発見しました。逆に、幻覚の増加は、より長い思考時間がモデルに「勇気」を与え、本来不確実な問題に答えようと試みた結果、当然ながら誤りが多発したためです。確証バイアスの説明の提示：事例分析を通じて、論文は、より長い推論プロセスがモデルに人間のような確証バイアス (Confirmation Bias) を生じさせる可能性があることを指摘しています。モデルはまず、初期の、おそらく誤った仮説を立て、その後の「思考」の中で、その仮説を裏付ける証拠を継続的に探し、あるいはでっち上げ、最終的に論理的に見えるが実際には誤った「自信に満ちた幻覚」につながるのです。バランスの取れた視点の提供：「長く考える」ことが効果的ではないにもかかわらず、論文は「思考する」ことと「思考しない」（直接答えを出力する）ことの違いも比較しました。結果として、思考モードを有効にすること（たとえ短い思考であっても）は、特に多段階推論を必要とする複雑な問題においては、完全に思考しないよりも通常は良いことが示されました。

イノベーションを支える主要な技術または方法——体系的な実験フレームワーク：著者らは、異なるモデルの「テスト時スケーリング」効果を評価するための一貫した実験手順を設計しました。彼らは、モデルがサポートするインターフェースに基づいて、スケーリング方法を推論努力度 (Reasoning effort)、思考予算 (Thinking budget)、予算強制 (Budget forcing) の3つのカテゴリに分類し、異なるモデル間での制御可能かつ比較可能な評価を実現しました。行動変化分析法：これは、「幻覚の変化は回答意図に起因する」という彼らの核心的な主張を裏付ける重要な方法です。彼らは、モデルが異なる思考レベルで「幻覚を生じる」状態から「幻覚を生じない」状態へ（またはその逆へ）変化した問題に特化して比較しました。これらの変化を分析することで、幻覚の減少は主に「回答の放棄」から生じ、増加は「新しい問題への試み」から生じることを定量的に示すことができました。ケーススタディ (Case Study)：異なる思考の長さにおけるモデルの完全な「内的独白」（推論チェーン）を提示することで、「確証バイアス」の形成過程を直感的に明らかにしました。

理解の難しさの特定

論文の主要な概念/方法の理解——テスト時スケーリング (Test-Time Scaling)：これが具体的にどのような操作を指すのかを理解する必要があります。これはモデルを再学習させることではなく、推論時（質問に答える時）に、特定のテクニックを用いてモデルに長い中間思考ステップを生成させることです。確証バイアス (Confirmation Bias)：これは「考えれば考えるほど間違える理由」を理解する上で核となるものです。この概念の意味、すなわち、既存の信念や仮説を支持する情報を探し、解釈し、思い出す傾向があることを理解する必要があります。回答意図 (Willingness to Answer)：これは論文が幻覚の数（量の変化）を説明するために使用する核心的なメカニズムです。これは、モデルが「不確実なときに勇敢に試みる」ことと「不確実なときに諦めることを選択する」ことの間のトレードオフを記述します。

最も挑戦的な部分——確証バイアスが大規模モデルでどのように発生するか：このプロセスは比較的抽象的です。モデルには主観的な意識がないのに、どのようにして「自分を納得させる」のでしょうか？これを理解するには、具体的な推論チェーンの事例と結びつけ、モデルがどのようにして不確実性から過剰な自信へと段階的に進んでいくのかを観察する必要があります。

特に解説が必要なコア概念——コア概念：テスト時スケーリングが確証バイアスを誘発することによって、モデルの回答意図にどのように影響し、最終的に知識集約型タスクでより多くの幻覚を引き起こすのか。この文は論文のすべての主要なポイントを結びつけており、第二段階で深く掘り下げるべき核心です。

概念間の依存関係

コア概念間の関係——入り口：最も基本的な操作であるテスト時スケーリングから始め、それが何をしているのかを説明します。核心問題：次に、この操作が知識集約型タスクに適用されたときに遭遇する幻覚の問題を導入します。核心メカニズム：続いて、より長い思考（テスト時スケーリング）がなぜ幻覚を悪化させるのかを確証バイアスで説明します。最終的な現れ：最後に、この確証バイアスがモデルの回答意図の変化にどのように現れるかを説明し、論文で観察されたすべての実験現象を完全に説明します。

第二段階：コア概念の深掘り解説

実生活の比喩の設計

シナリオ設定と核心メカニズム——あるシナリオを想像してください。歴史の専門家ではない生徒が、筆記の歴史知識コンテストに参加しています。その中の一つの問題は、「活版印刷術を発明した畢昇は、どの時代の人物ですか？」というものです。この生徒は、答えについて漠然とした印象しかなく、はっきりとは確信していません。ここで、彼が2つの異なる状況でどのように振る舞うかを見てみましょう：状況A（時間的制約があり、思考時間が短い場合）：生徒は素早く記憶をたどり、いくつかの可能性のある時代が頭をよぎりますが、どれも確信が持てません。時間が迫っているため、もっともらしい説明を「でっち上げる」時間はありません。間違いによって減点されないために、最も合理的な選択は、解答用紙に「不明」と書くか、あるいはそのまま飛ばすことです。状況B（時間が十分あり、思考時間が長い場合）：生徒はたっぷり時間をかけて「考える」ことができます。彼は漠然と、畢昇という名前が宋の時代と少し似ているような気がしていました。この「宋の時代」という考えが彼の最初の仮説となります。次に、彼はこの仮説を否定する証拠を探すのではなく（そもそも彼の頭の中にはなかったため）、この仮説を裏付けるもっともらしい論理チェーンを草稿用紙に構築し始めます：「うーん、宋の時代は経済文化が非常に繁栄し、科学技術も発達していた。四大発明のいくつかはこの宋の時代と関連がある。畢昇という名前も、当時の文人らしい響きがある。それに、教科書で宋の時代の科学技術について話していたときに彼が言及されていたような気がする。そうだ、きっと宋の時代だ！」この過程で、彼は漠然とした、中立的な、あるいは無関係な情報（「文人らしい響き」など）までも、自分の「宋の時代」という仮説を支持する証拠として扱いました。この一連の「深層思考」を経て、彼が最初に抱いていた不確実な仮説は非常に強固なものとなりました。最終的に、彼は自信満々に解答用紙に「宋の時代」と書き込んだのです。

確証バイアス機構のまとめ——この過程こそが、典型的な確証バイアスです。長い思考時間は彼に新たな正しい情報をもたらさず、むしろ、彼自身の限られた知識を使って、最初の、おそらく誤った直感を「論証」し、強化する機会を与えたのです。

比喩と実際の技術との対応関係の確立

対応関係表

学生対応する実際の技術概念：大規模言語モデル (LLM)。説明：どちらも既存の知識に基づいて推論し、質問に答える知的エージェントです。

歴史知識コンテストの問題 対応する実際の技術概念：知識集約型タスクのクエリ (Query)。説明：これはエージェントの事実的知識貯蔵量を直接試すものです。

学生の脳内の知識貯蔵量 対応する実際の技術概念：モデルの学習済み内部パラメータ/世界知識。説明：これはエージェントが質問に答える唯一の情報源です（実験ではインターネット接続は許可されていません）。

許された思考時間 対応する実際の技術概念：テスト時スケーリングの計算予算 (Test-Time Scaling)。説明：たとえば、reasoning_effortを高く設定したり、thinking_tokensを増やしたりすることです。

下書き用紙に書かれた推論プロセス 対応する実際の技術概念：モデルの推論チェーン (Chain-of-Thought, CoT)。説明：これはモデルが最終回答を出力する前の「内的独白」または中間思考ステップです。

時間が足りず、飛ばすことを選択する 対応する実際の技術概念：低い計算予算下でモデルが回答を放棄する (Abstain)。説明：モデルは知識不足を素早く判断し、「I don't know」と出力します。

時間が十分あり、論理チェーンを構築して自信を持って回答する 対応する実際の技術概念：高い計算予算下でモデルが確証バイアスのために過信した幻覚を生成する。説明：モデルは一見合理的なCoTを長く生成し、最終的に自信に満ちた誤った回答を出します。

最終回答 「宋の時代」対応する実際の技術概念：モデルの幻覚出力 (Hallucination)。説明：これは事実と異なる誤った回答です（正しい答えは北宋ですが、比喩のため宋の時代と簡略化されています。重要なのはこのプロセスです）。

技術詳細の深掘り

技術背景——この論文の核心は実験観察と分析にあり、新しい数学的公式やアルゴリズムを提案しているわけではありません。その技術的な詳細は、主に実験設計と分析方法に現れています。この比喩を用いて、論文中で最も重要な2つの指標、精度 (Accuracy) と幻覚率 (Hallucination Ratio) を理解することができます。

精度式——元の数学形式：正しい回答の質問数 / 全質問数；記号置換版：解答得点率 = 生徒が正しく答えた質問数 / 全質問数；技術的実装：強力な「審査員」モデル（例：GPT-4o-mini）を用いて、モデルの回答が標準回答と一致しているかを判断します。

幻覚率式——元の数学形式：誤った回答の質問数 / 全質問数；記号置換版：でたらめ回答率 = 生徒が誤って答えた質問数 / 全質問数；技術的実装：「審査員」モデルは、モデルの回答を「不正確」とマークします。

技術詳細と比喩のマッピング

マッピング関係の分析——比喩において、思考時間が長くなると（状況AからBへ）、生徒は本来スキップしたであろう問題（幻覚率への貢献は0）を、間違って答えた問題（幻覚率への貢献が増加）に変えました。これは直接的に幻覚率の上昇につながります。同時に、もし生徒が元々ある問題について正しい第一印象を持っていたとしても、長い思考時間によって迷いが生じたり、誤った推論が導入されたりして、かえって間違った答えを出す可能性があります。これは精度の低下または停滞につながる可能性があります。論文のFigure 2は、思考時間 (Average Reasoning Tokens) の増加に伴い、複数のモデルの幻覚率 (Hallucination Ratio) が低下するどころか上昇する傾向を示しており、これは私たちの比喩に完全に合致しています。論文のFigure 4のケーススタディは、gpt-oss-20bモデルの思考プロセスを示しています。低い思考予算では、「確信が持てない。わからないと答えよう」 (I'm uncertain. I'll say I don't know) と言い、状況Aの生徒のようです。高い思考予算では、継続的に自己暗示をかけ、「証拠」をでっち上げ（例：「彼の履歴書を確認できる…」「AAAIのウェブサイトのリストで確かに見たことがある…」）、最終的に「2005年でかなり確実だ」 (I'm fairly sure it's 2005) と自信を持って誤った答えを出しました。これは、状況Bの生徒の心理活動そのものです。

比喩の限界——この比喩は「確証バイアス」による幻覚の増加を非常によく説明しています。しかし、すべての状況を完全に網羅しているわけではありません。例えば、実際に複数ステップの推論が必要な正しい答えが得られる知識問題（論文で言及されているFRAMESデータセットなど）では、長い思考時間がモデルの情報統合を助け、精度を向上させることがあります（ただし、論文ではこの状況は一般的ではないとされています）。私たちの比喩は、この点を簡略化し、幻覚増加の核心的なメカニズムを説明することに主に焦点を当てています。

まとめ

核心的な繋がりを再確認——モデルに「長く考えさせる」（テスト時スケーリング）ことは、知識が不確かな生徒に試験時間を長く与えるようなものです。彼は空から正しい答えを思いつくわけではなく、むしろ、彼の曖昧な、間違った直感を、自己構築した一連の論理（確証バイアス）を通して、もっともらしい最終回答としてパッケージ化する機会を増やすことになります。

主要な原理のまとめ——このプロセスによって、モデルが「わからない」と認めるはずだった状況が、自信を持って「でたらめを言う」状況へと変わるのです。したがって、マクロなデータにおいて、論文の核心的な発見、すなわち思考時間の増加に伴い、モデルの幻覚率が低下するどころか上昇するという現象が観察されました。

第三段階：処理手順の詳細説明

この論文の核心は、新しいモデルを提案することではなく、既存モデルの振る舞いを研究するための評価および分析手順を設計することです。以下に、この手順がどのように機能するかを詳細に説明します。ここでは、gpt-oss-20bモデルのSimpleQAデータセットでの評価を論文から再現することを仮定します。

入力：

1. モデル：gpt-oss-20b

2. データセット：複数の事実に関する質問のリストで、各質問には標準の答えがあります（例：SimpleQAから抽出した800問）。

3. クエリテンプレート (Prompt)：固定の指示テンプレート、例："Give me the answer to the following question only when you are sure of it. Otherwise, say 'I don't know'. Put your answer on its own line after 'Answer:'."

4. 評価器：高性能なLLM、例：gpt-4o-miniを「審判」として使用します。

処理フロー：

ステップ1：異なる思考レベルの設定

gpt-oss-20bのようなモデルは、reasoning_effortというパラメータを通じてその思考の深さを制御できます。

この手順の最初のステップは、テストするいくつかのレベルを定義することです。私たちはgpt-oss-20bのために3つの思考レベルを設定します：'low', 'medium', 'high'。これらが実験の独立変数となります。

ステップ2：モデルの回答の一括生成

SimpleQAデータセットの各質問をループで処理します。

このループの内部で、さらに3つの思考レベル（'low', 'medium', 'high'）をループで処理します。

各質問と各思考レベルの組み合わせに対して、以下の操作を実行します：

1. 現在の質問を所定のクエリテンプレートに埋め込み、完全な入力テキストを作成します。

2. gpt-oss-20bモデルのAPIを呼び出し、上記のテキストを入力として渡し、重要点として、reasoning_effortパラメータを現在のループのレベル（例：'low'）に設定します。

3. モデルは「思考チェーン」と最終回答を含むテキストを返します。その中から、'Answer:'の後に続く最終回答を抽出します。

4. この質問、標準回答、思考レベル、およびモデルが生成した最終回答を1つのレコードとして保存します。

フロー出力：このステップの後、膨大な結果セットが得られます。例えば、800問の質問に対して、各質問につき3つの異なる思考レベルの回答がある場合、合計で800 * 3 = 2400件のレコードが収集されます。

ステップ3：自動評価

次に、前ステップで生成された2400件のレコードを処理します。

各レコードに対して、「審判」モデル（gpt-4o-mini）のAPIを呼び出します。

審判モデルへの入力は構造化されており、以下を含みます：

1. 元の質問（例："What year did John Mylopoulos receive his AAAI Fellow award?"）

2. 標準回答（例："1993"）

3. gpt-oss-20bがその思考レベルで生成した回答（例："2005"）

審判モデルのタスクは、所定の指示に基づいて、gpt-oss-20bの回答を以下の3つのカテゴリのいずれかに判定することです："correct"（正しい）、"incorrect"（間違っている、すなわち幻覚）、または"not attempted"（モデルが「I don't know」など、不確実性を示す内容を回答した場合）。

フロー出力：各レコードに「評価タグ」（correct、incorrect、not attempted）を追加します。

ステップ4：指標の計算と分析

グループ化処理——すべてのレコードを「思考レベル」（'low', 'medium', 'high'）でグループ化します。各思考レベルのグループに対して、以下の主要な指標を計算します：精度 (Accuracy)：そのグループ内で「評価タグ」が'correct'であるレコードの数を、そのグループの全レコード数（つまり800）で割って計算します。幻覚率 (Hallucination Ratio)：そのグループ内で「評価タグ」が'incorrect'であるレコードの数を、そのグループの全レコード数（800）で割って計算します。

フロー出力——各思考レベルに対応する精度と幻覚率の数値が得られます。例：low: Accuracy=25%, Hallucination Ratio=40%；medium: Accuracy=24%, Hallucination Ratio=50%；high: Accuracy=23%, Hallucination Ratio=55%。これらのデータポイントが、論文のFigure 1とFigure 2の曲線を描画するための基礎となります。

ステップ5：深層行動分析（任意だが、論文の核心）

「なぜ幻覚率が上昇するのか」を探るためには、より詳細な比較が必要です。

'low'と'high'の2つのレベルで評価タグが変化したすべての質問を抽出します。

これらの質問の中で、特に注目するのは次のタイプです：'low'レベルでは'not attempted'だったが、'high'レベルでは'incorrect'に変化した質問。

このような質問が、すべての新規幻覚問題に占める割合を計算します。もしこの割合が非常に高い場合（論文で発見された95%など）、それは幻覚の増加が、モデルが本来不確実な問題に答えようとし始めたことに主に起因することを強力に証明します。

フロー出力：論文のFigure 3のような行動変化分析図が得られ、幻覚変化の内在メカニズムが明らかになります。

この完全なフローは、データ入力、モデルとの対話、自動評価から多次元分析に至るまで、厳密な研究方法を構成しており、論文の結論が単なる逸話的な証拠ではなく、大規模データに基づいた体系的な発見であることを示しています。

第四段階：実験設計と検証分析

主実験設計の解読：核心的な主張の検証

核心的な主張と実験設計——核心的な主張：テスト時計算量（すなわち、モデルを「長く考えさせる」こと）を増やしても、知識集約型タスクにおけるモデルの性能を効果的に向上させることはできず、かえって有害である可能性がある。実験設計：著者らは直接的かつ巧妙な「自己比較」手法を採用しました。彼らはモデルAとモデルBを比較するのではなく、異なる思考強度下での同一モデルの性能を比較しました。具体的には、推論チェーンをサポートする12の主要な大規模モデルを選び、SimpleQA（事実質問応答）とFRAMES（多段階推論質問応答）の2つのデータセットで、モデルの推論計算量を系統的に増加させ、その精度 (Accuracy) と幻覚率 (Hallucination Ratio) の変化傾向を観察しました。この設計は、モデル自体の能力差による干渉を排除し、「思考の増加」という行為自体の効果を非常に純粋に検証できます。

選択の合理性分析——データセット：SimpleQAとFRAMESの選択は非常に優れていました。SimpleQAは古典的な事実確認型のデータセットであり、質問は直接的で、主にモデルの知識記憶能力を試します。一方、FRAMESはさらに進んで、モデルに多段階推論を要求します（例：「ピカソが亡くなった年に、ピンク・フロイドがリリースしたアルバムは何ですか？」）。これはモデルの知識統合および応用能力を試すものです。これら2種類のデータセットをカバーすることで、実験の結論はより普遍的なものとなり、単純な知識抽出であれ複雑な知識推論であれ、この結論が基本的に成立することが証明されました。評価指標：精度 (Accuracy) と幻覚率 (Hallucination Ratio) の使用は的を射ています。知識集約型タスクでは、「どれだけ正しく答えたか」（Accuracy）だけでなく、「どれだけ間違って答えたか」（Hallucination Ratio）も重要です。なぜなら、誤った答えは答えがないよりも有害である可能性があるからです。これら2つの指標を同時に評価することで、モデルの「信頼性」を包括的に特徴づけることができ、精度のみを見ることで生じる誤解を避けることができます。ベースライン手法：本研究のベースラインは、最低思考設定におけるモデルの性能です。これは完璧な制御変数設計です。その後のより高い思考設定におけるすべての性能は、この基準点と比較され、いかなる性能の変化も「思考量の増加」に明確に帰属させることができます。これは、別のモデルをベースラインとして選択するよりもはるかに科学的です。

実験結果による核心的な貢献の裏付け——実験結果はFigure 1とFigure 2に集約されています。Figure 1 (Accuracy)は、ほとんどのモデルの精度曲線が、思考時間（X軸）の増加とともに、平坦であるか、変動しているか、あるいは低下していることを示しており、ごく少数のモデル（Gemini 2.5 Flashなど）のみが初期に明確な改善を示した後、すぐにプラトー状態に入っています。これは、「思考の増加が必ずしも精度向上につながるとは限らない」という主張を強力に裏付けています。Figure 2 (Hallucination Ratio)はさらに衝撃的で、多くのモデルの幻覚率曲線は平坦であるか、あるいは上昇しています。これは、「長く考えることがかえって有害である可能性がある」という核心的な発見を直接証明しています。主実験は、テスト時スケーリングが知識集約型タスクの「万能薬」ではないことを明確に示しており、その効果は、他のタスクで期待されるほどではないことが明らかになっています。

アブレーション実験分析：内部コンポーネントの貢献

分析背景——伝統的な意味でのアブレーション実験は、モデルの特定のモジュールを除去することですが、この論文は既存モデルの振る舞いを分析しているため、その「アブレーション実験」は、現象に対する異なる説明を「排除」し、真の原因を特定することを目的とした深層分析に現れています。

主要な分析方法——論文の核心的な洞察は、「幻覚率の変化は、モデルの回答意図によって駆動されており、知識想起能力の向上ではない」ということです。これを検証するため、彼らはFigure 3に示す分析実験を設計しました。

除去された仮説——考えられる、より楽観的な仮説は、「幻覚が減少するとき、それはモデルがより深く思考した結果、正しい知識を成功裏に想起し、誤った答えを修正したためである」というものです。

実験設計と結果——著者らは、特に「低い思考」時には幻覚を生じたが、「高い思考」時には幻覚を生じなかったケースを調査しました。彼らは「高い思考」時におけるこれらのケースの状態を分析した結果、その大半（例えばGrok-3 miniの93.1%）が「未回答」（Not attempted）になり、「正しく回答」（Correct）されたわけではないことを発見しました。

証明の必要性——この結果は、上記の楽観的な仮説を定量的に「除去」しました。これは、幻覚の減少が知識の「修正」に起因するのではなく、モデルがより「慎重」になり、諦めることを選択したことに起因することを証明しています。これにより、著者らの核心的な主張、すなわち、モデルの行動の変化は戦略的なもの（回答するかどうか）であり、能力的なもの（想起できるかどうか）ではない、という点が大きく強化されました。

深層革新実験の分析：方法の内在的特性の洞察

ケーススタディ実験分析——実験目的：この実験は、「ブラックボックス」を開き、抽象的な心理学的概念である確証バイアス (Confirmation Bias) が、モデルの推論チェーン内で実際にどのように発生するかを直感的に示すことを目的としています。これは、「モデルが長く思考した後、なぜ『不確実』から『過剰な自信』へと変化するのか？」という問いに答えるものです。実験設計：Figure 4に示すように、著者らは非常に代表的なgpt-oss-20bモデルの事例を選びました。彼らは、同じ問題に対して、低い思考設定と高い思考設定で生成された完全な「内的独白」（Thought process）を並列で示しました。低い思考設定：推論プロセスは短く、モデルはいくつかの可能性を試した後、「確信がない」（I'm uncertain）と率直に認め、最終的に回答を放棄します。高い思考設定：推論プロセスは非常に長いです。モデルは不確実な仮説（「…おそらく2005年」）から始まり、その仮説を裏付ける「証拠」を継続的に探し、さらには検証ステップを捏造します（「彼の履歴書を確認できる…」「AAAIのウェブサイトのリストで確かに見たことがある…」など）。このような「検証」のたびに、その自信は増し、最終的には「おそらく」から「2005年でかなり確実だ」へと変化し、この誤った答えを出しました。

実験結論の意義——このケーススタディは、より長い推論チェーンが、モデルに「自己正当化」を行い、「確証バイアス」のループに陥る余地を与えていることを極めて説得力をもって明らかにしました。これは客観的な知識検索を行っているのではなく、初期の仮説に対して、一見完璧だが事実から乖離した物語を構築しているのです。これは、「なぜ長く考えれば考えるほど、的外れな間違いが増えるのか」という問いに対して、最も根源的な、メカニズム的な説明を提供します。

論文タイトル：Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

考えれば考えるほど間違える：CoTの「深く熟考する」ことがLLMの幻覚を促進する触媒に！

短いURLをシェア