本文經大數據文摘授權轉載自夕小瑤科技說
談到嚴肅的程式設計,Anthropic 的 Claude 幾乎是公認的霸主,在許多開發者心裡都是首屈一指的地位。
但最近,風向似乎有些改變。
OpenAI 發佈了 GPT-5,我在公眾號裡、社群裡、論壇裡,許多地方都在刷屏一個消息:GPT-5 來了,而且在程式編碼能力上「強得可怕」。
雖然看了許多說 GPT-5 是「程式設計新霸主」所謂的噱頭和關於 GPT5 的評測,說實話,我還沒看到一份具說服力的報告。要嘛是拿官方的 demo 說事,要嘛是測了幾個美觀度尚可的網頁就說 GPT-5 強。用這些下結論草率了點吧。
所以,對於 GPT-5 和 Claude 誰更厲害,模型程式設計功能各自擅長什麼,許多人和我一樣好奇,
今天刷到國外的一位開發者老兄 Rohit 發佈了一篇 GPT-5 vs Claude Opus 4.1 程式編碼能力的評測部落格,比較實用,這裡分享出來。
首選,評測生成的所有程式碼都已開源,可以在這個連結查看。https://github.com/rohittcodes/gpt-5-vs-opus-4-1
核心結論:
演算法:GPT‑5 在速度與 token 數量上勝出(8K vs 79K)。
網頁開發:Opus 4.1 對 Figma 設計稿的還原度更高,但消耗的 token 量更大(90 萬 vs 140 萬 + token);
GPT-5 響應更快且成本更低,token 消耗比 Opus 4.1 節省約 90%,更適合作為一個高效的日常開發助理使用;如果你想要設計還原度高,而且預算彈性,Opus 4.1 則更具優勢。
再來看模型基礎資訊與 token 使用效率對比:
上下文視窗:Claude Opus 4.1 支援 20 萬 token,最大輸出量不詳;而 GPT‑5 支援 40 萬 token 上下文,最大可輸出 128K token。
Token 使用效率:儘管 GPT‑5 的上下文空間更大,但在相同任務下它總是使用更少的 token,從而大幅降低運行成本。
雖然在 SWE-bench 等程式編碼基準測試中,GPT‑5 略微領先於 Opus 4.1,但作者後續還實際測試了一些案例。
測試內容涵蓋實際開發常見情境:
程式編碼語言與任務類型:
演算法題:使用 Java 語言實作 LeetCode 進階題目。
網頁開發:使用 TypeScript + React,編寫基於 Figma 設計的 Next.js 頁面,透過 Rube MCP(一種通用 MCP 存取層)進行程式碼生成。
其他任務:包括客戶流失預測模型等業務邏輯實作。
環境:所有任務均在 Cursor IDE 聯合 Rube MCP 的環境中完成。
衡量指標:token 數量、耗時、程式碼品質、實際結果。
兩個模型使用完全一樣的提示語。
01 Figma 設計稿開發
Rohit 從 Figma 社區找了一個複雜的儀表板設計,要求它倆用 Next.js 和 TypeScript 把它復刻出來。
提示語如下:
Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
Responsive design
Proper component structure
Styled-components or CSS modules
Interactive elements
兩位參賽者的表現:
GPT-5:
耗時:約 10 分鐘
Tokens:906,485(90 萬 token)
GPT-5 的效率無庸置疑,10 分鐘就交卷了,應用程式也能運行。但成品……怎麼說呢,功能完善,但視覺效果卻差強人意。它掌握了設計的框架,卻完全忽略了精髓。顏色、間距、字體都和原稿相去甚遠,彷彿開了「低保真」模式。
是一個能工作的工程師,卻不懂美學且工作粗糙。
Claude Opus 4.1:
耗時:更長(因為反覆迭代)
Tokens:超過 140 萬 token (比 GPT-5 多了 55%!)
Opus 4.1 上來先鬧了點「小脾氣」,明明指定了 styled-components,它卻硬要用 Tailwind,需要人工修正。但當它「認錯」並開始工作後,結果令人震驚。
UI 幾乎與 Figma 設計稿一模一樣!視覺還原度堪稱完美。
一位追求完美的「藝術家」,雖然燒錢又有點固執,但作品無可挑剔。
02 LeetCode 演算法題
為了考驗純粹的邏輯和效率,Rohit 提出了經典的 LeetCode 難題:「尋找兩個正序陣列的中位數」,並要求時間複雜度為 O(log(m+n))」。
提示語如下:
Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
GPT-5:
耗時:約 13 秒
Tokens:8,253
GPT-5 幾乎沒有任何廢話,13 秒內給出了一個乾淨俐落、完全正確的二分搜尋解法。程式碼優雅,效率極高。
Claude Opus 4.1:
耗時:約 34 秒
Tokens:78,920 (接近 GPT-5 的 10 倍!)
Opus 4.1 則完全是另一種風格。它不僅給出了答案,還附上了一篇「小論文」:詳細的推導步驟、完整的程式碼註解,甚至內建了測試用例,深怕你學不會。雖然演算法核心是相同的,但它的輸出附帶了極高的「教育價值」。
想快速得到答案,找 GPT-5;想學習解題思路,Opus 4.1 是你最好的老師。
03 ML 複雜任務
最後一個挑戰是建構一個完整的機器學習管線,預測客戶流失。
然而,在見識了 Opus 4.1 在第一輪中驚人的 token 消耗量後,Rohit 考量到荷包的承受度,明智地讓它「輪休」了。這一局,只有 GPT-5 單挑。
提示語如下:
Build a complete ML pipeline for predicting customer churn, including:
Data preprocessing and cleaning
Feature engineering
Model selection and training
Evaluation and metrics
Explain the reasoning behind each step in detail
結果顯示,GPT-5 完全能勝任這種複雜的端到端任務。從資料預處理、特徵工程,到多模型訓練(邏輯迴歸、隨機森林、XGBoost),再到使用 SMOTE 處理資料不平衡問題和全面的效果評估,整個流程一氣呵成,程式碼紮實可靠。
耗時:約 4-5 分鐘
Tokens:約 86,850
04 成本對決:真金白銀的較量
效果看完了,那我們來算算帳。畢竟,這才可能是最能影響開發者選擇的因素。
GPT-5 (Thinking 模式)-完成三項測試任務
Web 應用:~$2.58
演算法:~$0.03
ML 管線:~$0.88
總計:約 $3.50
Opus 4.1 (Thinking + Max 模式)-僅完成兩項測試任務
Web 應用:~$7.15
演算法:~$0.43
總計:$7.58
結論一目瞭然:Opus 4.1 的使用成本是 GPT-5 的兩倍以上。
05 評測結論
GPT-5 的優勢
演算法任務中 token 使用量少、響應快,效率極高。
更適合日常開發,尤其是快速迭代與原型驗證。
整體 token 成本大幅低於 Opus 4.1。
Claude Opus 4.1 的優勢:
提供清晰、一步步解釋的程式碼邏輯,對學習過程友善。
在視覺擬真度(設計還原度)方面表現出色,非常貼近 Figma 原稿。
適合對介面精度要求高的情境。
所以,如果你是日常開發,優先使用 GPT‑5,效能與成本兼顧。如果介面還原要求高的設計任務,可選擇 Claude Opus 4.1,提升最終效果,但需預算充足。
推薦組合策略:先用 GPT‑5 打好基礎,然後在關鍵介面環節,用 Opus 4.1 打磨細節,實現效率與精度的平衡。
參考文獻https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison