Anthropic 承認模型「降智」卻仍放任其偷懶?Claude Code 使用者信任正崩塌

機器之心報導

編輯:冷貓

還記不記得每一次 OpenAI 發布新功能或新模型的時候,總會有一些評論聲稱現有模型能力下降,懷疑大型語言模型「降智」現象的聲音不絕於耳。

排除掉一些有關 OpenAI 對部分地區帳戶的使用者分級機制導致的顯著降級情況,普通使用者也會感覺到大型語言模型不時地出現問題。

機器之心編輯部在測試 GPT-5 的時候,感覺模型能力不及預期,也會懷疑是否有「降智」現象的存在。

圖片

但無論如何,此前大型語言模型供應商似乎從來沒有正面承認過模型「降智」的問題,使用者的感知也模模糊糊的。

OpenAI 的研究科學家 Aidan McLaughlin 前兩天發推聊到了這個現象。

圖片

他的意思是,大家(包括他自己)經常會錯誤地認為某個 AI 模型被實驗室「削弱」了,而這種錯誤認知的發生率遠高於他的預期。他甚至覺得,這是一種普遍的心理錯覺,應該被定義成一種新的心理學現象。

但他很快就被事實打臉了。

幾天前,Anthropic 發布了旗下模型 Claude Opus 4.1 和 Opus 4 的品質降級事件報告。很罕見地,大型語言模型廠商公開承認模型「降智」的現象。

圖片

從 8 月 25 日 17:30 UTC 到 8 月 28 日 02:00 UTC,Claude Opus 4.1 在部分請求中出現了品質下降的問題。使用者可能會遇到智能水平降低、回答格式錯誤或 Claude Code 工具呼叫異常等情況。

這一問題的原因是 Anthropic 在推論(inference)堆疊中進行了一次更新,但目前已經對 Claude Opus 4.1 回溯了該更新。雖然 Anthropic 經常會進行一些更改來提升模型的效率和吞吐量,但目標始終是保持模型回應品質不變。此外還發現 Claude Opus 4.0 也受到了同樣問題的影響,目前正在對其進行回溯。

並且,Anthropic 在報告中聲稱該事件已經被妥善解決。但 Anthropic 很快被使用者們打臉,直到 9 月 1 日,使用者對於 Claude Code 的負面回饋不減反增。

Claude 這波自廢武功的現象正持續性消耗使用者過去的習慣和信任,很多使用者正一點點地轉向 GPT-5。

研究者 Thomas Ricouard 認為:

  • Claude Code 暫時報廢,他不確定 Anthropic 是否真的從推論系統的問題中恢復過來,但就連 Opus 也變得非常「懶惰」。

  • Cursor Agent CLI 搭配 GPT-5 表現真的非常棒,尤其是在精心設計的提示(prompt)下。

圖片

在他的推文下面,許許多多的 Claude 使用者有著相同的抱怨,似乎 Anthropic 根本沒有好好修正這個問題,Claude 依然不停地在「偷懶」。

圖片

還有人稱,「實際運行起來更加糟糕。」

圖片

更有人直接開罵,「以前,Sonnet 4 能夠直接構建一個專案,而現在 Opus 4.1 卻連一個簡單的腳本都生成不了,簡直變成了無用的垃圾。」

圖片

Claude Code 表現為什麼如此差勁?使用時間或許是一大影響因素,「它在凌晨兩點用起來順暢無比,白天高峰期被限流之後就非常糟糕。」

圖片

還有人猜測,是不是 Anthropic 正在研發一個新的或更好的模型。

圖片

眾多批評之下,Claude Code 似乎就要跌落神壇了。當一個模型開始了「偷懶」,使用者會做出他們的選擇。根據我們此前的報導,在 GPT-5 發布後,相比於 Claude Code,開發者私下更喜歡用 GPT-5 寫程式碼。

圖片

下面這位小哥表示,「我這幾天一直在 Codex+GPT-5-high,完全不想念 Claude Code。每月 20 美元,性價比簡直離譜。」

圖片

你在 Claude 的實際使用中遇到過哪些「降智」行為呢?歡迎評論區留言。

主標籤:人工智慧

次標籤:大型語言模型模型性能ClaudeAnthropic


上一篇:谷歌 nano-banana 模型封神,MLLM 如何解決圖像任務?三個維度深度剖析

下一篇:大型語言模型為何會產生幻覺?OpenAI 最新研究揭示了原因

分享短網址