プログラミングテストで人間を圧倒!Claude Opus 4.5が深夜に急襲、AIプログラミングが「超人時代」に突入

最近この間、大規模モデルのリリースが餃子を落とすように、次々と出てきている。

Gemini 3 Proが2週間スポットライトを独占した直後、Claude Opus 4.5が正式リリースされ、やはりプログラミングを主軸に、あの馴染みの味だ。

画像

Anthropic公式は、Opus 4.5が全体的に賢く、より手間がかからないと主張。プログラミング、エージェント構築、PC制御などの「システムレベルのタスク」では世界トップクラスを維持。日常の研究、PPT作成、表計算などのデスクワークも明らかに強化された。

今日からOpus 4.5が全面開放され、アプリ、API、主要3大クラウドプラットフォームで利用可能。開発者はClaude APIでclaude-opus-4-5-20251101を呼び出すだけ。

リリースに伴い、ツールチェーン全体がアップグレード。開発者プラットフォーム、Claude Code、Chrome拡張、Excel、デスクトップ改修、「長会話のラグなし」。アプリからAPI、クラウドまで、本格的に全線展開だ。

Anthropic's New Claude Opus 4.5 Reclaims the Coding Crown - The New Stack

大規模モデルの「新シーズン」集結、Opus 4.5が強力フィナーレ

公式とテスターのフィードバックから、Claude Opus 4.5は「曖昧な要件」の理解力が大幅向上、複雑なバグの自己定位も安定、多くの早期トライアルユーザーがOpus 4.5が本当に「理解」していると感じている。

画像

実世界ソフトウェアエンジニアリングテストSWE-Bench Verifiedでは、80%超のスコアを最初に達成したモデルだ。

Chart comparing frontier models on SWE-bench Verified where Opus 4.5 scores highest

Opus 4.5のコード品質が全面アップ、SWE-bench Multilingualの8言語中7言語で首位、輝かしい成績。

画像画像画像画像

左スワイプでさらにベンチマークテストを見る

画像

例として、AnthropicチームがOpus 4.5をパフォーマンスエンジニア採用の高難度テストに投入、規定の2時間内でClaude Opus 4.5のスコアが全人間候補を上回った。

プログラミングテストは技術力と時間圧力下の判断力しか測れないが、数年の経験から来る直感、コミュニケーション・協力スキルなどの重要資質は範囲外。

ソフトウェアエンジニアリング以外、Claude Opus 4.5の全体能力が全面開花、前世代より視覚・推論・数学で優れ、複数重要分野で業界トップ水準:

Comparison table showing frontier model performance across popular benchmarks

より重要、モデルの能力が既存評価基準を超え始めている。

エージェント能力テストτ²-benchでこんなシナリオ:モデルが航空会社カスタマーサービスとして不安な乗客を助ける。

ルール上ベーシックエコノミーチケットは変更不可、テストは拒否を期待。だがOpus 4.5は巧みな解決策:まずベーシックからスタンダードエコノミーにアップグレード後、フライト変更。

この方法は航空会社ポリシーに完全準拠だがテスト予想外。技術的にテスト失敗だが、この創造的問題解決がOpus 4.5の独自性を示す。

画像

もちろん他の場面ではこの「ルール抜け道」行為は好まれない。モデルが予想外に目標から逸脱しないよう防ぐのがAnthropicの安全テスト重点。

Claudeどこでも:デスクトップ、ブラウザ、Excel全対応

Opus 4.5リリースに伴い、Claude Codeに2つの大更新。

Plan Modeがより精密な実行計画生成、操作前にClaudeが積極的に明確化質問、編集可能plan.mdファイル生成後計画実行。

加えてClaude Codeがデスクトップアプリ対応。複数ローカル/リモートセッション同時実行可、例:1エージェントがコードエラー修正、他GitHub検索、3つ目プロジェクトドキュメント更新。

画像

Claudeアプリユーザー向け、長会話中断なし。必要時Claudeが早期コンテキスト自動要約で会話継続。

Anthropic研究プロダクトマネージャーDianne Na Pennのインタビュー:

「Opus 4.5訓練で長コンテキスト処理を向上させたが、長いウィンドウだけでは不十分。どの情報が記憶に値するかを知るのが同様に重要。」

これらの改善でClaudeユーザー長望みの「無限会話」実現。有料ユーザーはコンテキスト制限超えても中断なし、モデルが自動コンテキスト圧縮、無リマインダー。

Claude for Chromeが全Maxユーザー開放、ブラウザ複数タブ間でClaude直接タスク実行。

画像

Claude for ExcelのベータがMax、Team、Enterpriseユーザー拡大。

Opus 4.5利用可能Claude/Claude Codeユーザー向け、Opus関連使用上限廃止。

Max/Team Premiumユーザー向け全体使用限度向上、Opusトークン数は前Sonnet時とほぼ同等。今後強力モデルで配額更新。

モデルを「賢く省く」、Opus 4.5基盤大アップグレード

モデルが賢くなるほど少ないステップで問題解決:試行錯誤減、冗長推論低減、思考短縮。

Claude Opus 4.5は前世代比、同等/優結果でトークン数大幅減。

もちろんタスクによりバランス異なる。

開発者が深い思考望む時も、速い柔軟応答望む時も。

よってAPIに新effortパラメータ:時間/コスト優先かモデル能力最大化か選択。

中effortでOpus 4.5はSWE-Bench VerifiedでSonnet 4.5最高スコア同等、出力トークン76%減。

画像

最高effortでOpus 4.5はSonnet 4.5より4.3%上回り、出力48%減。

effort制御、コンテキスト圧縮、高級ツールコールでClaude Opus 4.5長時間稼働、多タスク完了、人間介入減。

画像

さらに、真AIエージェントは数百千ツール間シームレス協力必要。

IDEアシスタントがGit、ファイル管理、テストフレーム、デプロイ統合想像、または運用エージェントがSlack、GitHub、Google Drive、Jira、数十MCPサーバー接続。

問題は従来全ツール定義一括コンテキスト投入。5サーバー系でGitHub 26Kトークン、Slack 21K、Sentry/Grafana/Splunk 8K。

会話前で55Kトークン。Jira加え100K超。ツール名似で誤選択/パラメータミス多発。

Tool Search Tool diagram

Anthropicが3新機能で解決。

Tool Search ToolでClaudeが需要動的ツール発見、タスク必要部分のみロード、トークン使用~85%減。

Programmatic Tool CallingでClaudeがコード直ツールコール、各呼出全推論避け。

Tool Use Examplesで統一基準、JSONスキーマでなく例で正しい使い方示す。

内部テスト:Tool Search ToolでOpus 4 MCP精度49%→74%、Opus 4.5 79.5%→88.1%。

Claude for ExcelがProgrammatic Tool Callingで数千行データ処理、コンテキスト過負荷なし。

画像

Anthropicのコンテキスト/記憶管理がエージェンタスク性能向上。

Opus 4.5複数サブエージェント効率管理、複雑協調マルチエージェント構築。テストで技術結合後、深研評価~15%向上。

Developer Platformが組成性向上、柔軟「モジュール構築」提供、効率/ツール/コンテキスト自由制御、理想インテリジェントシステム構築。

画像

Opus 4.5アップグレード輝かしいが、明確トレンド:モデル「性格」差異拡大中。

Claude従来ラインでOpus「超大」プログラミング/システム操作/構造推論最強;文案ならSonnet性能/コストパフォーマンス優。

今回リリース再確認。

将来モデル選、ベンチマーク以外「働き方」合うか見る。

つまりモデル選は同僚選に似てきた。

公式ブログ: https://www.anthropic.com/news/claude-opus-4-5

メインタグ:Claude Opus 4.5

サブタグ:AIプログラミングツールチェーンアップグレードエージェントSWE-Bench


前の記事:【深掘り】Ilya Sutskever精選論文:プラトニック表現仮説

次の記事:Gemini 3の意義:AIは「幻覚段階」を超え、人間に迫り、「人機協働」は「人間がAIを修正」から「人間がAIの仕事を指導」へ - 華爾街見聞

短いURLをシェア