GPT-5 對決 Claude Opus 4.1：程式編碼能力評測

本文經大數據文摘授權轉載自夕小瑤科技說

談到嚴肅的程式設計，Anthropic 的 Claude 幾乎是公認的霸主，在許多開發者心裡都是首屈一指的地位。

但最近，風向似乎有些改變。

OpenAI 發佈了 GPT-5，我在公眾號裡、社群裡、論壇裡，許多地方都在刷屏一個消息：GPT-5 來了，而且在程式編碼能力上「強得可怕」。

雖然看了許多說 GPT-5 是「程式設計新霸主」所謂的噱頭和關於 GPT5 的評測，說實話，我還沒看到一份具說服力的報告。要嘛是拿官方的 demo 說事，要嘛是測了幾個美觀度尚可的網頁就說 GPT-5 強。用這些下結論草率了點吧。

所以，對於 GPT-5 和 Claude 誰更厲害，模型程式設計功能各自擅長什麼，許多人和我一樣好奇，

今天刷到國外的一位開發者老兄 Rohit 發佈了一篇 GPT-5 vs Claude Opus 4.1 程式編碼能力的評測部落格，比較實用，這裡分享出來。

首選，評測生成的所有程式碼都已開源，可以在這個連結查看。https://github.com/rohittcodes/gpt-5-vs-opus-4-1

核心結論：

演算法：GPT‑5 在速度與 token 數量上勝出（8K vs 79K）。

網頁開發：Opus 4.1 對 Figma 設計稿的還原度更高，但消耗的 token 量更大（90 萬 vs 140 萬 + token）；

GPT-5 響應更快且成本更低，token 消耗比 Opus 4.1 節省約 90%，更適合作為一個高效的日常開發助理使用；如果你想要設計還原度高，而且預算彈性，Opus 4.1 則更具優勢。

再來看模型基礎資訊與 token 使用效率對比：

上下文視窗：Claude Opus 4.1 支援 20 萬 token，最大輸出量不詳；而 GPT‑5 支援 40 萬 token 上下文，最大可輸出 128K token。

Token 使用效率：儘管 GPT‑5 的上下文空間更大，但在相同任務下它總是使用更少的 token，從而大幅降低運行成本。

雖然在 SWE-bench 等程式編碼基準測試中，GPT‑5 略微領先於 Opus 4.1，但作者後續還實際測試了一些案例。

測試內容涵蓋實際開發常見情境：

程式編碼語言與任務類型：

演算法題：使用 Java 語言實作 LeetCode 進階題目。

網頁開發：使用 TypeScript + React，編寫基於 Figma 設計的 Next.js 頁面，透過 Rube MCP（一種通用 MCP 存取層）進行程式碼生成。

其他任務：包括客戶流失預測模型等業務邏輯實作。

環境：所有任務均在 Cursor IDE 聯合 Rube MCP 的環境中完成。

衡量指標：token 數量、耗時、程式碼品質、實際結果。

兩個模型使用完全一樣的提示語。

01 Figma 設計稿開發

Rohit 從 Figma 社區找了一個複雜的儀表板設計，要求它倆用 Next.js 和 TypeScript 把它復刻出來。

提示語如下：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.

Try to make it as close as possible. Use Next.js with TypeScript. Include:

Responsive design

Proper component structure

Styled-components or CSS modules

Interactive elements

兩位參賽者的表現：

GPT-5：

耗時：約 10 分鐘

Tokens：906,485（90 萬 token）

GPT-5 的效率無庸置疑，10 分鐘就交卷了，應用程式也能運行。但成品……怎麼說呢，功能完善，但視覺效果卻差強人意。它掌握了設計的框架，卻完全忽略了精髓。顏色、間距、字體都和原稿相去甚遠，彷彿開了「低保真」模式。

是一個能工作的工程師，卻不懂美學且工作粗糙。

Claude Opus 4.1：

耗時：更長（因為反覆迭代）

Tokens：超過 140 萬 token (比 GPT-5 多了 55%！)

Opus 4.1 上來先鬧了點「小脾氣」，明明指定了 styled-components，它卻硬要用 Tailwind，需要人工修正。但當它「認錯」並開始工作後，結果令人震驚。

UI 幾乎與 Figma 設計稿一模一樣！視覺還原度堪稱完美。

一位追求完美的「藝術家」，雖然燒錢又有點固執，但作品無可挑剔。

02 LeetCode 演算法題

為了考驗純粹的邏輯和效率，Rohit 提出了經典的 LeetCode 難題：「尋找兩個正序陣列的中位數」，並要求時間複雜度為 O(log(m+n))」。

提示語如下：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

耗時：約 13 秒

Tokens：8,253

GPT-5 幾乎沒有任何廢話，13 秒內給出了一個乾淨俐落、完全正確的二分搜尋解法。程式碼優雅，效率極高。

Claude Opus 4.1：

耗時：約 34 秒

Tokens：78,920 (接近 GPT-5 的 10 倍！)

Opus 4.1 則完全是另一種風格。它不僅給出了答案，還附上了一篇「小論文」：詳細的推導步驟、完整的程式碼註解，甚至內建了測試用例，深怕你學不會。雖然演算法核心是相同的，但它的輸出附帶了極高的「教育價值」。

想快速得到答案，找 GPT-5；想學習解題思路，Opus 4.1 是你最好的老師。

03 ML 複雜任務

最後一個挑戰是建構一個完整的機器學習管線，預測客戶流失。

然而，在見識了 Opus 4.1 在第一輪中驚人的 token 消耗量後，Rohit 考量到荷包的承受度，明智地讓它「輪休」了。這一局，只有 GPT-5 單挑。

提示語如下：

Build a complete ML pipeline for predicting customer churn, including:

Data preprocessing and cleaning

Feature engineering

Model selection and training

Evaluation and metrics

Explain the reasoning behind each step in detail

結果顯示，GPT-5 完全能勝任這種複雜的端到端任務。從資料預處理、特徵工程，到多模型訓練（邏輯迴歸、隨機森林、XGBoost），再到使用 SMOTE 處理資料不平衡問題和全面的效果評估，整個流程一氣呵成，程式碼紮實可靠。

耗時：約 4-5 分鐘

Tokens：約 86,850

04 成本對決：真金白銀的較量

效果看完了，那我們來算算帳。畢竟，這才可能是最能影響開發者選擇的因素。

GPT-5 (Thinking 模式)-完成三項測試任務

Web 應用：~$2.58

演算法：~$0.03

ML 管線：~$0.88

總計：約 $3.50

Opus 4.1 (Thinking + Max 模式)-僅完成兩項測試任務

Web 應用：~$7.15

演算法：~$0.43

總計：$7.58

結論一目瞭然：Opus 4.1 的使用成本是 GPT-5 的兩倍以上。

05 評測結論

GPT-5 的優勢

演算法任務中 token 使用量少、響應快，效率極高。

更適合日常開發，尤其是快速迭代與原型驗證。

整體 token 成本大幅低於 Opus 4.1。

Claude Opus 4.1 的優勢：

提供清晰、一步步解釋的程式碼邏輯，對學習過程友善。

在視覺擬真度（設計還原度）方面表現出色，非常貼近 Figma 原稿。

適合對介面精度要求高的情境。

所以，如果你是日常開發，優先使用 GPT‑5，效能與成本兼顧。如果介面還原要求高的設計任務，可選擇 Claude Opus 4.1，提升最終效果，但需預算充足。

推薦組合策略：先用 GPT‑5 打好基礎，然後在關鍵介面環節，用 Opus 4.1 打磨細節，實現效率與精度的平衡。

參考文獻https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

GPT-5 對決 Claude Opus 4.1：程式編碼能力評測

分享短網址