大規模言語モデル(LLM)のハルシネーション問題がOpenAIによって解明されました。OpenAIは先日、LLMのハルシネーションの根源を深く分析した研究論文を発表し、現在の主要な訓練と評価システムがハルシネーション問題の主要な原因の一つであることを指摘しています。
論文:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
研究は、現在の評価基準が、モデルが不確実性に直面した際に知識の限界を認めるのではなく、推測行動を暗黙のうちに報奨していると指摘しています。ハルシネーションは事前学習に由来し、「次の単語予測」から発生します。ハルシネーションは神秘的な現象ではなく、その発生する統計的メカニズム、そしてそれが既存の評価システムでどのように報奨されているかは、すべて理解できるものです。
ハルシネーション現象の本質
ハルシネーションとは、言語モデルが生成する、一見もっともらしいが実際には誤っている陳述を指します。この現象は、簡単な問題を処理する際にも発生する可能性があります。
論文では例を挙げています。広く使われているチャットボットが、論文著者の一人であるアダム・タウマン・カライ氏の博士論文のタイトルについて尋ねられた際、自信を持って3つのまったく異なる、すべて誤った情報を提供しました。同様に、彼の誕生日を尋ねられた際も、3つの異なる誤った日付を提示しました。
評価システムの「試験の罠」
研究は、ハルシネーションが根絶しにくい主な理由が、評価方法が誤ったインセンティブの方向性を設定していることにあると指摘しています。ほとんどの評価システムは正答率を核心指標としており、これはモデルが不確実性を正直に表現するのではなく、推測することを奨励するものです。
これは多肢選択式の試験に例えることができます。受験生がわからない問題に遭遇した場合、推測することで運良く点数を獲得できるかもしれませんが、空欄にすれば確実にゼロ点です。同様に、モデルが正答率のみで高得点を得る場合、モデルは「わからない」と答えるよりも、推測する傾向が強くなるように訓練されます。
例えば、モデルが知らない誕生日を尋ねられた際、9月10日と推測すれば365分の1の確率で正解します。しかし、「わからない」と答えれば得点はゼロです。膨大なテストにおいて、推測に慣れたモデルは、不確実性を慎重に認めるモデルよりもランキングで高いスコアを達成します。
データが示す:高い正答率が低いエラー率を意味するとは限らない
この点を具体的に説明するため、論文はGPT-5システムカードにおけるSimpleQA評価のデータを引用し、2つのモデルを比較しています。
指標比較
指標 | gpt-5-thinking-mini | OpenAI o4-mini (旧モデル)
拒否率 (具体的な回答なし) | 52% | 1%
正答率 (正解) | 22% | 24%
エラー率 (誤った回答、つまりハルシネーション率) | 26% | 75%
合計 | 100% | 100%
データは、古いOpenAI o4-miniモデルが正答率でわずかに優れていた(24%対22%)ことを示しています。しかし、その代償は75%という高いエラー率(ハルシネーション率)でした。これは、モデルが戦略的な推測によってわずかに正答率を向上させる一方で、壊滅的なエラー率の増加を引き起こすことを明確に示しています。
しかし、業界で一般的に正答率を重視するランキングは、開発者たちがより冒険的な推測をするモデルを構築するよう促しています。これは、技術が進歩してもモデルのハルシネーション問題が依然として存在し続ける理由を説明しています。
ハルシネーションの起源:「次の単語予測」から
これらの非常に具体的な事実誤認は、そもそもどこから来るのでしょうか?研究は、その根源がモデルの事前学習方法にあると指摘しています。言語モデルは、膨大なテキストの中から次の単語を予測することで学習します。この過程では、データ自体に「真/偽」のラベルがなく、モデルは言語の流暢なパターンのみを学習します。
スペルや文法などは強力で一貫したパターンに従うため、モデルの規模が大きくなるにつれて、これらのタイプのエラーは減少します。しかし、誰かの誕生日といった低頻度で恣意的な事実は、テキスト内に予測可能なパターンを欠いています。モデルは文脈からのみそのような事実を推測することはできないため、尋ねられた際には統計的な確率に基づいて生成するしかなく、これがハルシネーションを引き起こします。
ハルシネーションに関する5つのよくある誤解
上記の分析に基づき、本論文はハルシネーションに関する5つのよくある誤解を明確にしています。
誤解1:ハルシネーションは避けられない。
研究結果:そうではありません。言語モデルは、不確実な場合に回答を拒否することを選択でき、それによってハルシネーションを回避できます。
誤解2:正答率が100%に達すれば、ハルシネーションは解消される。
研究結果:正答率が100%に達することは決してありません。現実世界には、本質的に回答不能な、または情報が不足している質問が常に存在するからです。
誤解3:ハルシネーションを避けるには非常に高い知能が必要であり、大規模モデルだけがそれを達成できる。
研究結果:小規模モデルにとって、自身の限界を認識する方が実際は容易です。特定の分野を知らないモデルは簡単に「わからない」と言うことができますが、ある程度の知識を持つモデルは、自身の回答の信頼度を判断するためにより複雑な計算を必要とします。
誤解4:ハルシネーションは言語モデルにおける神秘的な技術的故障である。
研究結果:ハルシネーションは神秘的な現象ではありません。その発生する統計的メカニズム、そしてそれが既存の評価システムでどのように報奨されているかは、すべて理解できるものです。
誤解5:良いハルシネーション評価基準さえあれば、問題は解決する。
研究結果:専門的なハルシネーション評価基準が存在したとしても、正答率を核心とする数百の伝統的な評価基準の前では、その影響力はごくわずかです。
将来の方向性:評価システムの改革
研究報告の最終的な結論は、ハルシネーション問題を解決する鍵は、既存の評価システムを根本的に改革することにあるというものです。研究者たちは、新しい評価基準が、不確実性を認めるよりも、自信のある誤った回答に対してより重いペナルティを課すべきだと提唱しています。業界全体の「採点ルール」が変わって初めて、開発者たちはハルシネーションを減少させる技術や戦略を採用する真のインセンティブを得られるでしょう。
参考:https://openai.com/index/why-language-models-hallucinate/