Anthropic 承認模型「降智」卻仍放任其偷懶？Claude Code 使用者信任正崩塌

機器之心報導

編輯：冷貓

還記不記得每一次 OpenAI 發布新功能或新模型的時候，總會有一些評論聲稱現有模型能力下降，懷疑大型語言模型「降智」現象的聲音不絕於耳。

排除掉一些有關 OpenAI 對部分地區帳戶的使用者分級機制導致的顯著降級情況，普通使用者也會感覺到大型語言模型不時地出現問題。

機器之心編輯部在測試 GPT-5 的時候，感覺模型能力不及預期，也會懷疑是否有「降智」現象的存在。

但無論如何，此前大型語言模型供應商似乎從來沒有正面承認過模型「降智」的問題，使用者的感知也模模糊糊的。

OpenAI 的研究科學家 Aidan McLaughlin 前兩天發推聊到了這個現象。

他的意思是，大家（包括他自己）經常會錯誤地認為某個 AI 模型被實驗室「削弱」了，而這種錯誤認知的發生率遠高於他的預期。他甚至覺得，這是一種普遍的心理錯覺，應該被定義成一種新的心理學現象。

但他很快就被事實打臉了。

幾天前，Anthropic 發布了旗下模型 Claude Opus 4.1 和 Opus 4 的品質降級事件報告。很罕見地，大型語言模型廠商公開承認模型「降智」的現象。

從 8 月 25 日 17:30 UTC 到 8 月 28 日 02:00 UTC，Claude Opus 4.1 在部分請求中出現了品質下降的問題。使用者可能會遇到智能水平降低、回答格式錯誤或 Claude Code 工具呼叫異常等情況。

這一問題的原因是 Anthropic 在推論（inference）堆疊中進行了一次更新，但目前已經對 Claude Opus 4.1 回溯了該更新。雖然 Anthropic 經常會進行一些更改來提升模型的效率和吞吐量，但目標始終是保持模型回應品質不變。此外還發現 Claude Opus 4.0 也受到了同樣問題的影響，目前正在對其進行回溯。

並且，Anthropic 在報告中聲稱該事件已經被妥善解決。但 Anthropic 很快被使用者們打臉，直到 9 月 1 日，使用者對於 Claude Code 的負面回饋不減反增。

Claude 這波自廢武功的現象正持續性消耗使用者過去的習慣和信任，很多使用者正一點點地轉向 GPT-5。

研究者 Thomas Ricouard 認為：