ここ数日、AI界はお祭り騒ぎのようでした。
つい先ほど、AnthropicはClaude 4シリーズモデル、Claude Opus 4とClaude Sonnet 4を正式に発表しました。
スローガンも長大な論文もなく、今回のClaudeのアップグレードのキーワードはただ一つ、「実務」です。
Anthropicによると、Opus 4は現在世界最強のプログラミングモデルであり、複雑で長時間にわたるタスクやエージェントワークフローを安定してこなすことができます。一方、Sonnet 4はプログラミングと推論能力の強化に重点を置いており、ユーザーの指示に一層正確に応答できます。
さらに、Anthropicは以下の新機能も同時にリリースしました。
ツール支援による拡張思考(ベータ版):Claudeモデルは、深く思考する際にツール(ウェブ検索など)を交互に使用することで、推論プロセスと応答の質を最適化できます。
新モデル機能:両モデルはツールを並行して使用し、より正確な指示を実行できます。また、開発者の承認を得て、記憶能力を向上させ、重要な情報を抽出し保存して、文脈の一貫性を保つことができます。
Claude Codeが正式リリース:Claude Codeは現在、GitHub Actions、VS Code、およびJetBrainsに対応しています。
新しいAPI機能:Anthropic APIに、コード実行ツール、MCPコネクタ、ファイルAPI、最長1時間までキャッシュ可能なプロンプトキャッシュ機能の4つの新機能が追加されました。
Claude 4がリリースされ、最強のプログラミングAIの座は再び入れ替わったのか?
Anthropicのこれまでのモデルの中で最も強力なOpus 4は、プログラミングベンチマークSWE-benchで72.5%の高得点を獲得し、Terminal-benchでも43.2%で他社をリードしており、最もコードを書く能力が高いモデルと言えます。
Claude Opus 4はプログラミングと推論問題の解決に優れています。経験豊富なプログラマーのように問題を分解し、ロジックを修正し、正確にデバッグし、数時間を要する複雑なタスクさえ連続して実行できます。
Anthropicは一部の顧客にOpus 4を先行試用させました。Replitでの実測では、Opus 4は複数のファイルや大規模な変更を伴うプロジェクトで高い精度を発揮しました。
Block氏は、Gooseというコードネームのエージェントにおいて、このモデルがコードの編集とデバッグの過程でコードの品質を著しく向上させ、同時に安定性とパフォーマンスを維持したと述べています。
楽天はこのモデルを使って、要求の厳しいオープンソースのリファクタリングタスクを7時間連続で安定稼働させ、非常に優れたパフォーマンスを示しました。Cognitionは、Opus 4が他のモデルでは解決できなかった複雑なタスクを解決し、以前のモデルでは完了できなかった複数の重要な操作を成功裏に処理したと直接的に指摘しました。
私はOpus 4に、アニメーション効果のある天気カードを作成するよう試しました。4つの異なる天気状態をそれぞれ独自の動きで表示するよう要求したところ、1回の試行で成功し、驚くべき効果でした。
Opus 4と比較すると、Sonnet 4が最強とは限りませんが、ほとんどの開発者にとって最も適しているかもしれません。
前世代のSonnet 3.7と比較して、そのプログラミング能力、論理推論、および応答制御性は著しく向上しました。SWE-benchの成績は72.7%に達し、Opus 4とほぼ同等です。
Sonnet 4はほとんどのベンチマークでOpus 4に及びませんが、全体的に軽量で柔軟性が高く、より明確に焦点が絞られています。
私はSonnet 4に「純粋なHTML/CSS/JavaScriptを単一ファイルで実装し、自動デモAI機能を含むファミコン風の『スネーク』ゲームを作成」するよう試しました。1回目は失敗しましたが、2回目で成功し、出力品質も良好でした。
したがって、GitHubが次世代のGithub Copilotの基盤モデルとしてSonnet 4を選択したのも納得できます。Manusは、複雑な指示をより明確に処理し、出力形式もより洗練されていると述べ、Sourcegraphは、より核となる問題に集中し、より構造化されたコードを書くことができると指摘しました。
「ハイブリッド推論モデル」として、Claude 4シリーズは2つのモードをサポートしています。1つはほぼリアルタイムの応答、もう1つはより複雑な推論タスクに適した深い思考です。
拡張思考なしのSWE-bench VerifiedおよびTerminal-bench評価では、両モデルのパフォーマンスはすでに優れていましたが、長時間思考(最大64Kトークン入力サポート)を有効にすると、その上限はさらに引き上げられました。GPQA、MMMLU、AIMEなどのテストでは、ほとんど敵がいません。
MMMLUテストでは、Opus 4が87.4%、Sonnet 4も85.4%のスコアを獲得しました。
AIMEテストでは、両者ともに33%を超え、前世代のレベルをはるかに上回りました。
AnthropicはTAU-bench向けに全く新しい推論プロセスも設計しました。これにより、モデルは小売戦略設計や航空管制最適化などの複雑な思考プロセスをシミュレートする、最大100ステップに及ぶ推論タスクを実行できます。このモードでは、Claudeは結論を直接出すのではなく、完全な思考の連鎖を記述することが推奨されます。
同時に、Anthropicはモデルの振る舞いもさらに最適化しました。
Opus 4とSonnet 4は前世代と比較して、「近道」をしたり論理的欠陥を利用したりすることが少なくなりました。AIの欺瞞行為を誘発しやすいテストでは、関連する問題の発生率が65%減少しました。
開発者がモデルにローカルファイルへのアクセスを許可すると、Claudeはドキュメントを理解するだけでなく、「記憶ファイル」を記憶、生成、維持し、重要な情報を記録して完全な作業記憶を形成できます。
Anthropicは、将来優れたAIエージェントには3つの能力が必要であると明確に指摘しました。
状況に応じた知能:タスクを理解するだけでなく、あなたが誰であり、何をしているのか、さらにはなぜそうするのかを理解します。組織の習慣や個人のスタイルを理解し、自己最適化を継続します。
長時間のタスク実行能力:長いプロセスや複雑な構造のタスクを単独で完了したり、他の人間やAIと協力したりできます。
真の協調能力:質の高い対話を行い、ワークフローに適応し、その行動に対する明確な推論の説明を提供できます。
例えば、Opus 4は『ポケモン』をプレイ中に「ナビゲーションガイド」を作成しました。
最後に、ツールレベルでは、Anthropicは「思考の要約」という新機能も導入しました。このメカニズムは、モデルの思考経路が長すぎる場合に、自動的に小さなモデルを呼び出して思考を圧縮・要約し、最終的に提示される情報をより簡潔で明確にします。
この機能は、複雑なタスクの約5%でのみトリガーされるとされており、ほとんどのシナリオではモデルの推論連鎖はすでに十分に効率的であり、簡素化は不要です。
有名ブロガーのDan Shipper氏もClaude 4シリーズモデルを体験し、評価を下しました。
彼は、Opusがプログラミング、特にClaude Codeにおけるパフォーマンスで際立っていると考えています。介入なしに長時間独立してプログラミングタスクを完了でき、OpenAIのCodexよりも強力です。
例えば、無限スクロール機能を成功させました。さらなる最適化は必要ですが、効果はすでにリリース可能なバージョンに近いものです。
執筆に関して、o3が執筆能力で優れている一方、Opusは優れた編集ツールです。テキストを正直に編集し、安易に「良い評価」を与えることはなく、問題点を指摘し、これまで見つけられなかった執筆テーマやパターンを発掘するのにも役立ちます。
しかし、日常業務に関しては、Opusのパフォーマンスはo3に劣ります。ChatGPTの記憶機能は日常使用においてより粘り強く効果的ですが、Opusは日常使用の第一選択ツールとなるためには、知能と速度を大幅に向上させる必要があります。
現在、両モデルはAnthropic API、Amazon Bedrock、Google Cloud Vertex AIプラットフォームで利用可能であり、Pro、Max、Team、Enterpriseの各プランをサポートしています。Sonnet 4は無料ユーザーにも公開されています。
価格は前世代と同じです。Opus 4は100万トークンあたり(入力/出力)15ドル/75ドル、Sonnet 4は3ドル/15ドルです。
AIエージェントが主流の生産性ツールとなる現代において、Anthropicのこれら2つの新モデルは、異なるレベルのユーザーに明確な選択肢を提供します。Opus 4は究極の性能と研究のブレークスルーを目指し、Sonnet 4は主流の導入とエンジニアリング効率に焦点を当てています。
AIモデルは賢いだけでなく、耐久性があり、堅牢で、制御可能でなければなりません。これこそが、Claude Opus 4とSonnet 4が、基本的な能力から詳細なメカニズム、コードシナリオから長時間タスクの実行まで、明確に示しているシグナルです。
Claude Codeが全面開放、開発者の新しい「AIアシスタント」は信頼できるか?
数ヶ月前、Anthropicは開発者向けのプログラミングツール「Claude Code」を研究プレビューとしてリリースしました。今日、このツールはすべての開発者に正式に公開されました。
今日から、コマンドラインターミナル、常用IDE、または自作のアプリケーションバックエンドなど、Claude Codeはより多くの実際の開発シナリオに深く組み込まれます。Anthropicは同時にClaude Code SDKをリリースし、開発者がこのエージェントに基づいてカスタムワークフローと自動化ツールチェーンを構築するのを支援します。
その中の重要なアップデートの一つは、VS CodeとJetBrainsシリーズIDE向けにリリースされたベータ版拡張機能です。
この拡張機能を使えば、Claudeはコードエディター内で直接修正提案を提供でき、開発者は慣れた作業環境から離れることなく、変更を素早く確認し、タスクの進捗を追跡できます。IDEのターミナルでインストールコマンドを実行するだけで、Claude Codeを起動できます。
IDEの他に、Anthropicは拡張可能なClaude Code SDKもリリースしました。これにより、ユーザーはClaude Codeに基づいて独自のエージェントやアプリケーションを構築できます。
さらに、Claude CodeはGitHubとの深い統合テスト段階に入りました。開発者はプルリクエストで@Claude Codeを使って、コードレビューのコメント処理、CIエラーの修正、変更のコミットなどの一般的なタスクを支援できます。/install-github-appコマンドでGitHubプラグインをインストールするだけで、「プロンプト即変更」の自動化されたコラボレーションが実現します。
今日のライブセッションで、AnthropicのCPOであるMike Krieger氏は、Claude Codeが規模拡大段階に入るにつれて、「プロンプトキャッシュ」が頻繁に求められるようになったもう一つの需要であると述べました。現在、この機能は正式にローンチされました。デフォルトのプロンプトキャッシュTTLは5分間ですが、高度なユーザーはこれを1時間まで延長できます。
このアップグレードにより、長時間実行されるエージェントタスクのコストが大幅に削減されます。最大でトークンコストが90%削減され、応答遅延が85%短縮されるため、Claudeは継続的な対話や多段階の推論を伴う複雑なタスクチェーンの処理により適しています。
Claude Codeのプロダクトマネージャーは発表会で、Claude Codeを使ってExcalidrawにテーブルコンポーネントを追加するという実際のデモタスクを披露しました。この長く温められていた機能要求は、Claudeによってわずか1回のプロンプトで完全に実現されました。
VS Codeでプロジェクトを開いた後、開発者はClaude Codeに明確な要件記述を提出しました。カスタムサイズ、ドラッグ可能、スタイル互換性のあるテーブルコンポーネントの追加を希望するというものです。Claude Codeはすぐに詳細なタスクリストを生成し、手順に従ってプロジェクトコードを段階的に修正し始めました。
IDEとの深い統合により、開発者は変更ごとのコード差分(diff)を一目で確認でき、必要に応じて手動承認を選択するか、自動承認モードを有効にすることができます。デモでは、Claude CodeがLintチェック、テスト実行、PR提出といった全プロセスも担当し、全体の実現サイクルは90分未満でした。
最終的な成果には、完全なテーブル機能の追加、テストケースの自動生成と通過、Excalidraw UIとのシームレスな統合、Lint要件を満たすコード品質、ビルドの成功が含まれ、すべての出力は手動編集なしでClaude Codeが単独で完了しました。
例えば、ユーザーがIssueで@Claudeとすると、リクエストに応答するだけでなく、積極的にPRを作成し、コミット完了までコメントを通じて進捗を継続的に更新します。これは、Claude Codeがローカル環境に限定されず、GitHub、Slack、またはAPIをサポートするあらゆるプラットフォームでスケジュール可能な「クラウドコード同僚」となることを意味します。
Anthropicはまた、一部の顧客がClaude Code SDKを使って、不安定なテストを修正するために複数のインスタンスを並行して実行したり、カバレッジを自動的に向上させたり、夜間勤務中の緊急トラブルシューティングを実行したりするなど、より複雑なユースケースを構築していると述べました。
プログラミングは、AIエージェントにとって最も現実的な導入シナリオです。過去2週間で、OpenAIはCodexを、GoogleはJulesを発表し、Anthropicは未明にClaude Codeの全面開放を発表しました。
3つの主要AI企業が、ほぼ同時に同じ道筋を選んだのです。エージェントが、いよいよ実務を開始します。
これは偶然ではありません。「思考+実行」を必要とするすべてのタスクの中で、プログラミングはAIエージェントの導入に最も適したシナリオです。入力と出力は高度に構造化されており、標準的な答えは明確で、ツール呼び出しインターフェースは豊富であり、再利用可能なオープンソースのコーパスとフィードバックデータも大量に存在します。
さらに重要なのは、そのユーザーがAIを最も早く受け入れた開発者層であることです。彼らはカスタマイズに慣れ、新しいものを試す意欲があり、統合に長けており、良いツールには費用を払う能力と意欲を持っています。これは、エージェント製品のイテレーションに自然に適応する応用分野なのです。
AIがプログラマーの「仕事」を肩代わりできるかどうかが、ChatGPTがコンテンツ作成を変革した後の、もう一つの「生産性地震」となるかもしれません。その最初の発砲が、この全面開放されたClaude Codeなのかもしれません。
わずか10分で、過去には数日、あるいは数回のイテレーションサイクルを要した開発タスクを完了させました。このような変化は、常に起こっています。次世代の開発者は、エージェントに最初の指示を書くことから学び始めるでしょう。
発表会の終わりに、AnthropicのCEOであるDario AmodeiとCPOであるMike Kriegerが炉辺談話を行いました。APPSOがその内容をまとめました。
Mike Krieger:Dario、ステージにお帰りなさい。次に、一対一の対話を行います。Dario、おかえりなさい。
Dario Amodei:こんにちは、また会えましたね、素晴らしいです。これは満員の観客の前での一対一の会話のようですね、いいですね。Claude 4がリリースされ、Claude Sonnet 4とClaude Opus 4もオンラインになりました。Claude 4モデルについて最も興奮している点は何ですか?そして、それが今後12ヶ月で可能になることについてのあなたの見方をどのように変えましたか?
Dario Amodei:はい、抽象的に言えば、私が最も興奮しているのは、新しいモデルのカテゴリが発表されるたびに、それを使ってより多くのことができるようになることです。私たちはClaude 4の後もモデルをリリースし続けるでしょう。Sonnet 3.5のように、Claude 4.1のようなものが登場するかもしれません。
私たちはまだ、次世代モデルのタスク面での可能性を探り始めたばかりだと思います。モデルの「自律性」は現在のレベルをはるかに超えると思います。例えば、モデルに長期間にわたって自律的にタスクを実行させることなど、私たちはまだ始まったばかりです。私は、サイバーセキュリティタスクにおけるモデルの応用にもますます期待しています。サイバーセキュリティは実際にはプログラミングタスクの一種と見なすことができますが、通常はより高度です。
ですから、私たちはついにそのようなタスクをこなせる閾値に到達したのかもしれません。元生物学者として、私は生物医学や詳細な科学研究におけるモデルの応用にも非常に興奮しており、特にOpusはこの分野で非常に優れていると思います。
Mike Krieger:それは「Machines of Loving Grace」を連想させますね。Claude 4が全体的な開発経路の中でどのような役割を果たすと思いますか?私は皆が「Machines of Loving Grace」をエッセイとして読むのを冗談で言いますが、私はそれを今後数年間の製品ロードマップとして読んでいます。Claude 4はどのようにこの旅に組み込まれていると思いますか?
Dario Amodei:はい、あの記事は実際、私が書いた製品ロードマップのようなものですが、当時はそれをどう実現すればいいか分からず、「よし、皆さん、これがやるべきことです」と言いました。
私たちは今、生物学の分野でますます深く考えるようになっています。そして、ソフトウェアもその一部です。なぜなら、生物学はますますデータ駆動型になっているからです。10年前に私が生物学をやっていた頃もすでにデータが関わっていましたが、今はもっとそうです。私たちは生物学の知識が豊富なこれらのモデルを持っており、それがコードを書くのに役立ちます。
ですから、もしあなたが計算生物学者であれば、これらのモデルは本当にあなたの研究進度を加速させるでしょう。私たちには、モデルをこれらのタスクに応用しようとしている顧客もたくさんいます。それについては後で話しましょう。
Mike Krieger:はい、MCPをリリースした後に行った最初のハッカソンで、誰かがMCPを絵を描けるプロッターに接続し、Claudeが自由に絵を描けるようになったことを覚えています。それが描いたものを見るのは本当に面白かったです。MCPがデジタルシステムだけでなく、現実世界にも接続できると初めて気づいた瞬間でした。だから、もしMCPが実験装置を動かすことができれば、それは本当に興味深いことです。
Dario Amodei:すぐにClaudeを嘘発見器に接続してテストできるようになりますね、そのアイデアはとても気に入っています。
Mike Krieger:嘘発見器があるなら、誰が説明可能性を必要とするんですか?以前、Claudeが書いた内容が人間によって書かれたものだと確信した時があったとおっしゃっていましたね。それ以外にも、このモデルが本当に違うと気づいたような画期的な瞬間はありましたか?
Dario Amodei:実はその時、私自身も技術的な詳細をあまり理解していなかったのですが、社内でモデルリリース数週間前に、誰かが突然「信じられない、このモデルが非常に複雑なパフォーマンス最適化タスクを一度で完成させた、以前のどのモデルもできなかったのに」と言ったことがありました。
私が言いたいのは、モデル開発の過程には常に迷信に近い現象があるということです。土壇場で突然「開眼」することがあるのです。トレーニングプロセスは綿密に計画されているにもかかわらず、モデルの特定の能力は最後の瞬間に初めて現れることがあります。それはユーザーとのインタラクション方法が変わったのかもしれないし、ほんのわずかな調整が特に重要だったのかもしれないし、あるいは人々がモデルの使い方に慣れてきただけかもしれません。
モデルの初期バージョンでは皆が戸惑うのに、ある時点になると、人々が突然「このモデルはとても使いやすい」と言い出すのを発見するでしょう。最後の瞬間に、まるで「錬金術」のような不思議なことが起こるのです。
Mike Krieger: 『クリエイティビティ・インク』という本にも、ピクサーが映画を製作する過程がほとんど同じだと書かれていましたね。映画は公開の2日前になってもまだ散々な状態だったと。私たちもモデルを作るのはそんな感じだと思います。初期の段階では効果が出なくても、ある瞬間に突然ブレークスルーがあり、皆さんに使ってもらいたくてたまらなくなる。
Dario Amodei:それは本当に説明がつきません。トレーニングプロセスは均一なので、本来であれば「突然形になる」ような状況ではないはずです。しかし現実はそうなのです。RL曲線上のどこにもそのような点はないのに、最後の瞬間に統合が成功する。なぜかは私もわかりません。これは実際に存在する現象です。
Mike Krieger:多くの開発者が現場にいますが、私たち社内でも常に議論している問題があります。AIが急速に発展している今日、ソフトウェアエンジニアリングのどの部分がAIに取って代わられるのでしょうか?大量の開発作業を実行できる自律型エージェントが登場したとき、何がより重要になるのでしょうか?
Dario Amodei:はい、たぶんここにいる多くの人が、数ヶ月前にSteve Yeggeが書いたジュニアデベロッパーについてのブログ記事を読んだでしょう。彼には他にも似たような記事がいくつかあり、彼は私たちの会社にさえ訪問してくれました。彼の将来の発展についての記述は、私よりも明確だと思います。彼は、私たちがモデルのより高い自律性へと段階的に向かっていると語っています。
私たちは、モデルが主に自動補完に使われていた段階を経験しました。今は「vibe coding」と言われていますが、私たちはエージェントをタスクの実行に派遣できる方向へと進んでいます。Claude Codeがあれば、さらに一歩進み、将来的には他の製品インターフェースもこの方向をサポートするでしょう。
私たちは新しい世界に入りつつあります。開発者は、まるでエージェントのチームを管理するかのように、「これをやってくれ」「あれをやってくれ」と仕事ができるようになるでしょう。
しかし、私は人間の継続的な関与が依然として重要であると考えています。特に品質管理の面で、エージェントが正しいタスクを実行し、細部まで適切に行われていることを確認することが重要です。ですから、モデル自体と周辺製品のデザインの両方で、これらの細部に注意を払うことが非常に重要です。
Mike Krieger:私も強く共感します。モデルによってエンジニアリングの部分は効率化されましたが、同時に仕事の中の非効率な部分に対してより敏感になりました。例えば、私たちは現在、チーム間の調整やロードマップの策定に時間を使いすぎており、実際にはもっと構築に時間を費やすべきです。
開発速度が上がるにつれて、時間の無駄遣いだと感じることも増えました。
業界には常に議論があります。より大きなモデルがより強力なのか、それともより小さく洗練されたアーキテクチャがより有望なのか?あなたは「スケール則」の論文で広く知られていますね。この極端な傾向を今どのように見ていますか?事前学習はもう「時代遅れ」なのですか?それとも依然として核心なのですか?そして、それと事後学習の関係はどうですか?
Dario Amodei:あまり詳細には話したくありませんが、Claude 4シリーズモデルは、事前学習と事後学習の両方で顕著な進歩を遂げています。私たちは事前学習段階ではスケール則が依然として有効であり、同時に事後学習の面でも継続的にブレイクスルーがあることを発見しました。これら二つは補完関係にあり、将来的にもこの両方向で進歩を遂げると信じています。
私たちはモデルの規模を拡大し続けるでしょう。つまり、複数の技術経路が同時に指数関数的に成長しており、それらが相互に積み重なっています。
だからこそ、この分野は非常に速く発展していくと感じています。私がSteve Yeggeの論文が好きなのは、彼が私がよく言うことを言っているからです。あと1、2年もすれば、これらのモデルは人間と同等になるかもしれません。
Mike Krieger:信じられないですね、Claude 3.7は今年の2月にリリースされたんですよね?
Dario Amodei:そうですね、でもまるで1年前のことのようです。分かります、これは「時代遅れのモデル」のように聞こえるかもしれませんが、実際には2ヶ月ちょっとしか経っていません。時間の尺度が圧縮されています。私はよく、AIをやることはまるで宇宙船に乗って相対論的速度で地球を離れるようなものだと言います。宇宙船で1日過ごすと、地球では2日経っているかもしれません。
Dario Amodei:1日の中で2日分のニュースを受け取らなければならず、次に3日分、そして4日分へと。そんな感じで、私たちは皆この宇宙船に乗っているのです。
Mike Krieger:この比喩は本当に的確ですね。以前聞いたことがありませんが、とても的確です。後訓練という話題に戻りますが、Claude 4の重要な新機能の一つである「記憶」に非常に興味があります。モデルが自身の記憶を管理できるというのは、なぜそんなに重要なのでしょうか?それはモデルにどのような能力をもたらすのでしょうか?そう、質問を繰り返しますね。モデルが自身の記憶を管理し、長期的な計画を必要とするタスクを処理できるということについてです。
Dario Amodei:はい、それは非常に役立つ点です。特に興味深い例として「ポケモン」タスクがあり、モデルが自分の状態を記憶できることがわかりました。もちろん、これはポケモンだけに適用されるわけではありません。
これは素晴らしいことだと思います。なぜなら、モデルも人間と同じようになったからです。私が考えるとき、メモを書き、後でそのメモを見返します。時には中間的なステップも踏む必要があります。モデルも推論する際に、ある程度の「中間演算」を行うのです。
しかし、すべての推論プロセスが下書きエリアに収まるわけではありません。例えば、プレゼンテーションを作成したり、異なるドキュメントを書いたりもします。ですから、モデルも同じで、ファイルを作成し、それらのファイルを処理し、データをロードし、そしてこれらのステップをシームレスに交互に行う必要があります。現在の新しい機能の一つは、「推論と行動の交互実行」です。これらの一部の行動には、データの保存やデータの呼び出しが含まれることがあります。
これらのモデルが徐々に獲得している能力は、人間が持っている操作能力に徐々に近づいています。これは非常に正しい方向性だと私は思います。
Mike Krieger:Claude 4を使っている中で、私が非常に衝撃を受けた瞬間がありました。私たちは「ToDoリスト+メモ帳+Claude Code」の組み合わせを使っていたのですが、ClaudeがToDoリストを一つずつ処理し、思考の過程で新しいタスクを追加したり、完了したものをチェックしたり、関係ないものを消したりするのを見ていると――
それは本当に人間が自分の仕事や思考を管理する方法と非常に似ていました。そして、推論とツールの使用を交互に行うこともできました。
今朝、MacStoriesで記事を読みました。ClaudeがMCPとして使われていて、VACとMCPサーバーにリクエストを送る際にレート制限にぶつかったら、モデルが「おそらくレート制限に引っかかったから、別の方法を試してみよう」と推論したそうです。推論しながら戦略を調整できる、このツールの使い方は非常に強力です。
「トップへの競争」(race to the top)という話題について話したいと思います。通常、人々は安全性と能力は矛盾すると考えますが、あなたの見解は全く逆で、これら二つは並行して発展できると。この点は私に大きな示唆を与えました。
Dario Amodei:それが私がこのチームに加わった理由の一つです。私たちが言う「トップへの競争」は、日常のビジネス慣行だけでなく、AIの巨視的な発展方向にも適用されます。私たちは多くの顧客と話をしてきましたが、彼らはモデルの振る舞いの予測可能性と信頼性を非常に重視しています。
それこそが、私たちの長期的な目標の一つなのです。モデルがより広範な意味で人間の意図と一致するようにすることです。これら二つは相補的です。私たちは常に、合理的で責任ある形で、コミュニティにツールを提供したいと考えています。例えば、MCPが良い例です。
私自身も、MCPがこれほど急速に受け入れられたことに驚いています。去年の11月にリリースしたときは、最初はあまり反響がありませんでした。しかし、3、4ヶ月後には、それが事実上の標準となっていたのです。
またしても「宇宙船に乗っている」ような感覚です。高速で地球を離れ、時間が加速し続ける。考えてみてください、以前のUSBのような規格や、90年代、2000年代のいくつかの規格は、皆に受け入れられるまでに何年もかかりました。しかし今、他のMCPを使っているチームと話していると、彼らもこのプロセスを遅らせたくないと述べています。いくつかの方向性を示すことは望むものの、皆が「これはまるで瓶の中の稲妻だ」と感じ、見逃したくないと思っているのです。
Mike Krieger:私たちはそれが新しいプロトコルとなり、各エージェントが相互運用するための標準となることを確実にする必要があります。「トップへの競争」という話が出ましたが、あなたが書いた「説明可能性の喫緊性」に関する論文がとても好きです。あなたは神経科学のバックグラウンドをお持ちですが、説明可能性と機械知能の共同進化についてどうお考えですか?
Dario Amodei:はい、約10年前、多くの人が神経科学がAIの発展を導くと考えていました。実際、この分野には多くの元神経科学者がいますし、私も唯一の人間ではありません。いくつかの研究所の責任者も似たようなバックグラウンドを持っています。
高レベルから見ると、神経科学は確かにいくつかのインスピレーションを提供できることを発見しました。しかし、「あ、視床下部から学んだあるメカニズムを直接AIモデルの構築に使える」とは言えません。ほとんどの作業は実際にはゼロから行われています。
しかし面白いことに、傾向は逆なのです。私たちは説明可能性の研究を通じて、モデルの内部動作を「見透かす」ことができます。モデルと人間の脳の構造が明らかに異なるにもかかわらず、モデル内で発見されたいくつかの概念的なパターンが、神経科学の研究で「再現」されることがあります。例えば、Chris Olahのチームの研究者がモデルの説明可能性を通じて視覚システム内の高周波および低周波特徴検出器を発見しました。
それから数年後、ある神経科学者が動物の脳でも同様のメカニズムを発見しました。また、視覚モデルでは、ある経路が色処理に偏り、別の経路が明るさや物体の境界を処理するといった区別があります。これらの区別は、世界そのものの「自然な構造」のように見えます。人工的であろうと生物的であろうと、どのような抽象学習システムも同様の結論に至る可能性があるのです。
Mike Krieger:本当に面白いですね。あなたの「回路論文」が最終的に神経科学分野にどのような影響を与えるのか、とても興味があります。では、5年から10年という時間軸で考えてみましょう。AIの分野では「1年が5年」かもしれませんが。一人で10億ドルの収益を上げられる会社が最初に登場するのはいつだと思いますか?2026年ですか?
Dario Amodei:問題ないと思います。ここにいる皆さんに、Claudeを使って今後1年間でどのような製品を構築すべきか、つまり最先端分野でどのように建設を進めるべきか、いくつかアドバイスをしたいと思います。
もちろん、モデルの具体的な使用に関する多くの助言をすることができます。しかし、この「時間加速」の時代では、ほとんどすべての助言が「大胆になれ」という一言、あるいは二語に飲み込まれてしまいます。あなたが元々可能だと思っていたものを超えるものを構築してください。
たとえそれが今すぐには完全に実現できなくても、次の世代のモデルがやってきます。今は3ヶ月に1回更新されますが、すぐに2ヶ月、1ヶ月と更新されるかもしれません。今年の終わりには、私は「今日は何も作るな、今晩新しいモデルがリリースされるから」と助言しているかもしれませんね。
Mike Krieger:以前、ある起業家と話したことがあります。彼は2年前から自動プログラミングエージェントの会社を始め、市場にあるすべてのモデルを試しましたが、製品はうまくいきませんでした。しかし、Claude 3.7がリリースされると、彼は「ようやく私のスタートアッププロジェクトが動き出した」と言いました。
これは、これまで困難だったいくつかのタスクが、突然実現可能になったことを意味します。
Dario Amodei:時には「壁にぶつかる」ことも悪いことではありません。他の部分をすべて準備しておき、モデルのこの部分だけが足りないという状況です。モデルの能力が十分になったとき、あなたのシステムは必要以上に堅牢になっていて、それは良いことなのです。
だから、私はいつも「次のモデルを待て」と冗談を言いますが、もし今やっていることが「ほぼ」実現可能で、遠い未来の話ではないのであれば、壁にぶつかり続けることには価値があるのです。
Mike Krieger:私たちは内部研究でも同じような経験をしました。私たちの「高度研究+Claude能力」チームはプロトタイプを作ったことがありますが、その時はモデルのツール使用能力はまだ十分ではありませんでした。しかし、Claude 3.7、特にClaude 4になって、高度な研究タスクで非常に良いパフォーマンスを発揮するのを発見しました。それは、私たちがその過程で試行錯誤し、失敗を繰り返していたからです。
Dario Amodei:まるで自分のスタートアップ企業を次世代モデルに対する「投機的な実行」と見なすかのようですね。この言い方はとても気に入っています。
Mike Krieger:はい、まさにその通りです。最後の質問です。私たちダリオではない者にとって、AIが過去数年でどれほど驚異的な進歩を遂げたかを想像するのは難しいです。では、今後1年間、そして今後5年間で最も期待することは何ですか?
Dario Amodei:今後1年間で、「コード」の分野で多くの驚くべき進歩が見られると思います。
今、私たちはClaude Codeとプログラミングモデルを持っています。次に目指すのは「エージェントチーム」の構築です。これは世界に非常に興味深い影響を与えるでしょう。
私たちはまだ、あることを真剣に考えていません。それは、「ソフトウェアを書くコスト」が大幅に下がったときに、経済やビジネス構造がどうなるのかということです。
以前は、数百万人のユーザーがいるソフトウェア、あるいは少なくとも数万人のユーザーがいるソフトウェアだけが開発に値するという暗黙の前提がありました。特定のイベントのために一からソフトウェア全体を開発することはありませんでした。せいぜいちょっとしたツールを作るくらいです。しかし、プログラムを書くのにたった20セントで数秒しかかからないとしたら、あなたは「このイベントのためだけに、見た目を調整するツールを作ろう」と言うかもしれません。
Dario Amodei:ソフトウェアがオンデマンドで、低コストで、使い捨てで作成できるようになったとき、世界全体が変わるでしょう。開発者の役割、企業の役割、スタートアップ企業の役割、さらにはユーザーエクスペリエンスも変わります。これらすべてについて、私たちはまだ答えを持っていません。
5年という時間軸で見ると、私はやはり生物学に戻りたいです。生物医学は1年で完全に革新されることはないでしょう。この分野の進歩は遅いですから。しかし、5年後には、現在も存在するいくつかの病気を完全に克服できることを願っています。
Mike Krieger:今日の締めくくりとしましょう。残念ながら終わりにしなければなりません。あと40分は話せそうな気がします。まず、Dario、今日私たちと共有してくれてありがとう。Dario、ありがとう。そして、会場にいる皆さん、そしてライブで視聴している皆さん、ありがとうございました。
危うく忘れるところでした。もう一つあります。今日のCode with Claudeオフライン参加者の皆さんへの特別な感謝として、皆さんが無料のプレミアムサブスクリプション体験を受け取れることを発表できることを嬉しく思います。ご確認ください。
特にMaxとClaude Codeを一緒に使うのが好きなので、皆さんも存分に活用していただければ幸いです。残りのセッションが実り多きものになることを願っています。Code with Claudeへようこそ!皆さん、お越しいただきありがとうございます。
Dario Amodei:皆さん、お越しいただきありがとうございます。
APPSO AIコミュニティへようこそ。AI製品について語り合い、#AI有用功を手に入れて、さらに多くのAI新知識を解き放ちましょう👇
私たちは仲間を募集しています
📮 履歴書送付先メールアドレスhr@ifanr.com
✉️ メール件名「氏名+希望職種」(履歴書にプロジェクト/作品または関連リンクを添付してください)
その他の求人情報はこちらから🔗