GPT-5 vs Claude Opus 4.1: コーディング能力評価

ビッグデータダイジェストより許可を得て、夕小瑶科技説から転載。

本格的なプログラミングに関して言えば、AnthropicのClaudeはほぼ誰もが認める王者であり、多くの開発者の間でNo.1の地位を確立しています。

しかし最近、潮目が少し変わったようです。

OpenAIがGPT-5をリリースし、公式アカウント、コミュニティ、フォーラムなど、多くの場所で「GPT-5が登場し、そのプログラミング能力は恐ろしく強力だ」というニュースが広まっています。

GPT-5が「プログラミング新王者」だという触れ込みや、GPT-5に関する評価を多く見ましたが、正直なところ、説得力のある報告はまだ見ていません。公式デモを持ち出したり、見栄えの良いウェブページをいくつかテストしただけでGPT-5が強力だと言われても、そう結論付けるのは性急すぎるでしょう。

そこで、GPT-5とClaudeのどちらが優れているのか、それぞれのモデルのプログラミング機能が何を得意としているのか、多くの人が私と同じように疑問に思っています。

今日、海外の開発者であるRohit氏が、GPT-5とClaude Opus 4.1のプログラミング能力比較に関するブログ記事を公開しているのを見つけました。これは非常に実用的ですので、ここで共有します。

まず、評価で生成されたすべてのコードはオープンソースであり、以下のリンクで確認できます。https://github.com/rohittcodes/gpt-5-vs-opus-4-1

まず、主な結論を述べます：

アルゴリズム：GPT‑5は速度とトークン数で優位に立ちます（8K vs 79K）。

ウェブ開発：Opus 4.1はFigmaデザインの再現度が高いですが、消費するトークン量が多いです（90万 vs 140万+トークン）。

GPT-5は応答が速く、コストも低い。トークン消費量はOpus 4.1よりも約90%削減されており、効率的な日常開発アシスタントとしてより適しています。デザインの再現度が高く、予算に柔軟性があることを望むなら、Opus 4.1がより優位です。

次に、モデルの基本情報とトークン使用効率の比較を見てみましょう：

コンテキストウィンドウ：Claude Opus 4.1は20万トークンをサポートしていますが、最大出力は不明です。一方、GPT‑5は40万トークンのコンテキストをサポートし、最大128Kトークンを出力できます。

トークン使用効率：GPT‑5はより大きなコンテキスト空間を持つにもかかわらず、同じタスクで常に少ないトークンを使用するため、実行コストを大幅に削減します。

SWE-benchなどのコーディングベンチマークではGPT‑5がOpus 4.1をわずかに上回っていますが、著者はその後もいくつかのケースで実測を行いました。

テスト内容は実際の開発でよくあるシナリオを網羅しています：

プログラミング言語とタスクの種類：

アルゴリズム問題：Java言語を使用してLeetCode Advancedの問題を実装。

ウェブ開発：TypeScript + Reactを使用し、Figmaデザインに基づいてNext.jsページを記述。コード生成にはRube MCP（汎用MCPアクセス層）を使用。

その他のタスク：顧客離反予測モデルなどのビジネスロジックの実装を含む。

環境：すべてのタスクはCursor IDEとRube MCPの連携環境で実行されました。

測定指標：トークン数、所要時間、コード品質、実際の結果。

両モデルは全く同じプロンプトを使用しました。

01 Figmaデザインからの開発

Rohit氏はFigmaコミュニティから複雑なダッシュボードデザインを見つけ、両者にNext.jsとTypeScriptを使ってそれを再現するよう求めました。

プロンプトは以下の通りです：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.

Try to make it as close as possible. Use Next.js with TypeScript. Include:

Responsive design

Proper component structure

Styled-components or CSS modules

Interactive elements

両モデルのパフォーマンス：

GPT-5：

所要時間：約10分

トークン：906,485（90万トークン）

GPT-5の効率は言うまでもなく、10分で提出し、アプリケーションも動作しました。しかし、出来栄えは…どう表現すればよいでしょうか、機能は完備していますが、視覚的な効果は満足のいくものではありませんでした。デザインのフレームワークは理解していましたが、その魂を完全に無視していました。色、間隔、フォントは元のものとはかけ離れており、まるで「低忠実度」モードで動作しているかのようでした。

仕事をこなせるエンジニアですが、美的センスがなく、仕事が雑です。

Claude Opus 4.1：

所要時間：より長い（繰り返しのイテレーションのため）

トークン：140万トークン以上（GPT-5より55%多い！）

Opus 4.1は最初、「少しご機嫌斜め」で、styled-componentsを指定したにもかかわらずTailwindを使おうとし、手動での修正が必要でした。しかし、「間違いを認め」て作業を開始すると、その結果は驚くべきものでした。

UIはFigmaのデザインとほぼ同じでした！視覚的な忠実度は完璧と言えます。

完璧を追求する「アーティスト」。費用はかかり、少し頑固ですが、作品には一切の非の打ちどころがありません。

02 LeetCode アルゴリズム問題

純粋な論理と効率を試すため、Rohit氏は古典的なLeetCodeの難問「二つのソート済み配列の中央値を求める」を提示し、時間計算量はO(log(m+n))を要求しました。

プロンプトは以下の通りです：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

所要時間：約13秒

トークン：8,253

GPT-5はほとんど無駄な発言なく、13秒で簡潔かつ完全に正しい二分探索解法を提示しました。コードはエレガントで、効率は最高でした。

Claude Opus 4.1：

所要時間：約34秒

トークン：78,920（GPT-5の約10倍！）

一方、Opus 4.1は全く異なるスタイルでした。解答を提供するだけでなく、詳細な推論手順、包括的なコードコメント、さらには組み込みのテストケースまで付随した「小論文」を添えてきました。まるであなたが理解できないことを恐れているかのようでした。アルゴリズムの核心は同じですが、その出力には非常に高い「教育的価値」が伴っていました。

素早く答えが必要ならGPT-5に。問題解決の考え方を学びたいなら、Opus 4.1が最高の教師です。

03 複雑なMLタスク

最後の課題は、顧客離反を予測するための完全な機械学習パイプラインを構築することでした。

しかし、Opus 4.1が最初のラウンドで驚異的なトークン消費量を示したのを見て、Rohit氏は財布への配慮から賢明にもそれを「休ませ」ました。この回はGPT-5が単独で挑みました。

プロンプトは以下の通りです：

Build a complete ML pipeline for predicting customer churn, including:

Data preprocessing and cleaning

Feature engineering

Model selection and training

Evaluation and metrics

Explain the reasoning behind each step in detail

結果として、GPT-5はこのような複雑なエンドツーエンドタスクを完全にこなすことができました。データの前処理、特徴量エンジニアリングから、複数のモデル（ロジスティック回帰、ランダムフォレスト、XGBoost）の訓練、そしてSMOTEを使用したデータ不均衡問題の対処と包括的な効果評価まで、全工程がスムーズに一貫して行われ、コードは堅牢で信頼性の高いものでした。

所要時間：約4〜5分

トークン：約86,850

04 コスト対決：金銭的な比較

パフォーマンスを見終えたところで、次は費用について計算してみましょう。結局のところ、これが開発者の選択に最も影響を与える要因かもしれません。

GPT-5（Thinkingモード）- 3つのテストタスクを完了

ウェブアプリケーション：〜$2.58

アルゴリズム：〜$0.03

MLパイプライン：〜$0.88

合計：約$3.50

Opus 4.1（Thinking + Maxモード）- 2つのテストタスクのみ完了

ウェブアプリケーション：〜$7.15

アルゴリズム：〜$0.43

合計：$7.58

結論は一目瞭然です：Opus 4.1の使用コストはGPT-5の2倍以上です。

05 評価結論

GPT-5の強み：

アルゴリズムタスクにおけるトークン使用量の少なさ、速い応答速度、極めて高い効率。

日常の開発、特に迅速なイテレーションとプロトタイプ検証に適している。

全体的なトークンコストがOpus 4.1よりも大幅に低い。

Claude Opus 4.1の強み：

明確で段階的なコードロジックの解説を提供し、学習プロセスに優しい。

視覚的な忠実度（デザイン再現度）において優れたパフォーマンスを発揮し、Figmaのオリジナルに非常に近い。

インターフェースの精度が求められるシナリオに適している。

したがって、日常の開発ではGPT‑5を優先し、パフォーマンスとコストのバランスを取るのが良いでしょう。インターフェースの再現度が高いデザインタスクでは、Claude Opus 4.1を選択して最終的な効果を高めることができますが、十分な予算が必要です。

推奨される組み合わせ戦略：まずGPT‑5で基礎を築き、次に重要なインターフェース部分でOpus 4.1を使用して詳細を磨き上げ、効率と精度のバランスを実現します。

参考文献https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

GPT-5 vs Claude Opus 4.1: コーディング能力評価

短いURLをシェア