大型語言模型(LLM)的幻覺問題已被OpenAI研究清楚。OpenAI剛發布一篇研究論文,深入剖析了LLM幻覺的根源,指出當前主流的訓練與評估體系是導致幻覺問題的核心驅動因素之一。
論文連結:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
研究認為,現行評估標準無形中獎勵了模型的猜測行為,而非鼓勵其在面對不確定性時承認知識的局限性。幻覺起源於預訓練,來自於「下一個詞預測」,它並非神秘現象,其產生的統計學機制以及它如何在現有評估體系中被獎勵,都是可以被理解的。
幻覺現象的本質
幻覺,指的是語言模型產生看似合理但實際上錯誤的陳述。這種現象即使在處理簡單問題時也可能發生。
論文中舉了一個實例:當一個廣泛使用的聊天機器人被問及該論文作者之一 Adam Tauman Kalai 的博士論文題目時,它自信地給出了三個完全不同的答案,而這三個答案均為錯誤資訊。同樣,在被問及他的生日時,它也提供了三個不同的錯誤日期。
評估體系的「應試陷阱」
研究指出,幻覺之所以難以根除,很大程度上是因為評估方法設定了錯誤的獎勵導向。大多數評估體系以準確率為核心指標,這種方式鼓勵模型去猜測,而不是誠實地表達不確定性。
這可以類比為一場多項選擇考試:考生如果遇到不會的題目,選擇猜測或許能僥倖得分,但若留空則必定是零分。同理,當模型僅僅因為其答對問題的百分比而獲得高分時,它們便被訓練得更傾向於猜測,而不是回答「我不知道」。
例如,當模型被問及一個它不知道的生日時,如果猜測9月10日,有1/365的機率正確。但如果回答「我不知道」,得分則為零。在海量測試中,習慣猜測的模型在排行榜上的分數,會超過那些謹慎承認不確定性的模型。
數據佐證:高準確率並不意味著低錯誤率
為了具體說明這一點,論文引用了GPT-5系統卡中關於SimpleQA評估的數據,對兩款模型進行了比較:
指標對比
指標 | gpt-5-thinking-mini | OpenAI o4-mini (舊模型)
拒絕回答率 (不給出具體答案) | 52% | 1%
準確率 (答案正確) | 22% | 24%
錯誤率 (答案錯誤,即幻覺率) | 26% | 75%
總計 | 100% | 100%
數據顯示,舊的OpenAI o4-mini模型在準確率上略勝一籌(24% vs 22%)。然而,其代價是高達75%的錯誤率(幻覺率)。這清楚表明,模型透過策略性猜測雖然能微幅提升準確率,但會引發災難性的錯誤率增長。
然而,業界普遍以準確率為導向的排行榜,激勵著開發者建構更傾向於冒險猜測的模型。這解釋了為何即使技術在進步,模型幻覺的問題依然存在。
幻覺的起源:來自「下一個詞預測」
這些高度具體的事實性錯誤最初從何而來?研究指出,根源在於模型的預訓練方式。語言模型透過在海量文本中預測下一個詞來進行學習。這個過程中,數據本身沒有「真/假」標籤,模型只能學習語言的流暢模式。
拼寫、語法等遵循著強烈、一致的模式,因此隨著模型規模增大,這類錯誤會減少。但是,像某人生日這樣的低頻、任意性事實,在文本中缺乏可預測的模式。模型無法僅從上下文推斷出這類事實,因此在被問及時,只能基於統計機率進行創作,從而導致幻覺。
關於幻覺的五大常見誤區
基於上述分析,該論文對關於幻覺的五大常見誤區進行了澄清:
誤區一:幻覺是不可避免的。
研究發現:並非如此。語言模型完全可以選擇在不確定時拒絕回答,從而避免幻覺。
誤區二:只要準確率達到100%,幻覺就能被消除。
研究發現:準確率永遠無法達到100%。因為現實世界中總存在一些本質上無法回答或資訊不足的問題。
誤區三:避免幻覺需要極高的智慧,只有大型模型才能做到。
研究發現:對小型模型而言,認識到自身的局限性反而更容易。一個不了解某個領域的模型可以輕易地說「我不知道」,而一個略知一二的模型則需要更複雜的計算來判斷自身回答的置信度。
誤區四:幻覺是語言模型中一個神秘的技術故障。
研究發現:幻覺並非神秘現象。其產生的統計學機制,以及它如何在現有評估體系中被獎勵,都是可以被理解的。
誤區五:只要有一個好的幻覺評估標準,問題就能解決。
研究發現:即使存在專門的幻覺評估標準,在數百個以準確率為核心的傳統評估標準面前,其影響力也微乎其微。
未來的方向:改革評估體系
研究報告最終的結論是,解決幻覺問題的關鍵在於對現有評估體系進行根本性改革。研究人員倡議,新的評估標準應該對自信的錯誤答案施加比承認不確定性更重的懲罰。只有當整個行業的「計分規則」發生改變,才能真正激勵開發者採納能夠減少幻覺的技術和策略。
參考資料:https://openai.com/index/why-language-models-hallucinate/