転載元 | 新智元
【Synced Review編集長による序文】最強の推論モデルが一夜にして主役の座を奪った!深夜、o3-proが予期せぬ形でひっそりとリリースされ、数学、プログラミング、科学のベンチマークを席巻し、o1-proとo3を圧倒した。さらに驚くべきことに、o3の価格は80%も急落し、Gemini 2.5 Proに挑戦状を叩きつけた。
まったく予期せぬ形で、o3-proはひっそりと登場した!
昨夜、OpenAIは立て続けに大きな動きを見せ、まずo3の価格を80%急落させ、次に史上最強の推論モデルであるo3-proのリリースを公式に発表した。
o3と比較して、o3-proははるかに強力だ。
オルトマン氏は、「初めてo3に対するその勝率を見たとき、私は完全に衝撃を受けた」と述べている。
o3-proは、単なる汎用アシスタントではなく、長考、超長コンテキスト、ツール呼び出し機能を兼ね備えた超知能AIだ。
複数のベンチマークテストにおいて、o3-proの数学、科学、プログラミング性能は驚異的で、o1-proを大幅に上回った。
さらに、大手企業による初期テストでは、Gemini 2.5 Pro(0605)やClaude 4 Opusさえも凌駕していることが判明した。
さらに、その価格はo1-proの87%に過ぎず、入力は100万トークンあたり20ドル、出力は100万トークンあたり80ドルだ。
そして、同時に値下げされたo3は、AI業界に衝撃を与えた。現在、入力は100万トークンあたり2ドル、出力は100万トークンあたり8ドルで、GPT-4oに匹敵する価格だ。
現在、o3-proはすべてのChatGPT ProおよびTeamユーザーに提供されており、o1-proモデルは直接廃止された。
o3-proのリリースと同時に、オルトマン氏は最新の長文「穏やかな特異点」を発表し、人類がすでに臨界点を超え、技術の爆発的な発展が始まったことを直接示唆した。
さらに期待されるのは、オルトマン氏がOpenAIのオープンソースモデルが夏の終わりにリリースされるとほのめかしたが、6月ではないとのことだ。
o3-proが一夜にして神格化、数学とプログラミングで全開
モデルカードによると、o3-proはo3の最強の推論版であり、深い思考と超信頼性の高い回答を提供するために生まれた。
ウェブ検索、ファイル分析、視覚入力推論、Pythonコード実行など、ツールを自動で呼び出すことができ、記憶機能を通じてパーソナライズされた回答も実現できる。
専門家による評価では、特に科学、教育、プログラミング、ビジネス、ライティングアシスタンスなどの分野で、o3-proがより好まれた。
さらに、彼らはo3-proが明瞭さ、網羅性、指示の遵守度、正確さの面で優れていると満場一致で認めた。
AIME 2024、GPQA、Codeforcesの3つの主要テストで、o3-proは最高得点を獲得し、o1-proとo3を完全に凌駕した。
さらに、より厳格な「4/4信頼性」評価基準(モデルが4回の試行すべてで正しく回答した場合のみ成功とみなされる)では、
以下の通り、o3-proは数学、プログラミング、博士号レベルの科学に関する質問において、o1-proとo3を大幅に上回った。
最終的な結論として、o3-proはo3とほぼ同等であり、o3の新しい価格設定はARC-AGI-1のSOTA(最先端)を更新した。
OpenAIによると、o3-proはツールを呼び出し、思考時間が長くなるため、応答速度は通常o1-proよりも遅いとのこと。
ネットユーザーのYuchen Jin氏の実測によると、「Hi im sam Altman」と入力しただけで、o3-proは3分54秒もの間思考し、最長で13分に達することもあったという。
これほど多くのお金を費やして「こんにちは」と一言返されただけで、ChatGPTの現在の心の声はまだ見えない。
もちろん、OpenAIは、信頼性が速度よりも優先される複雑な問題においてo3-proを使用することを推奨している。
さらに、o3-proにはいくつかの制限がある。
技術的な問題解決中のため、o3-proは一時的に一時会話機能をサポートしていない。
o3-proは画像生成をサポートしておらず、画像生成にはGPT-4o、o3、o4-miniを使用する必要がある。
o3-proはCanvas機能もサポートしていない。
それでも、o3-proはすでに十分に賢く、十分に知能が高い。
AI大手による初回テスト、AGIを体験
Raindrop.aiのBen Hylak氏は、いち早くo3-proの実測資格を取得し、世界初の初期o3-pro評価をもたらした。
Hylak氏は、OpenAIがo3の価格を80%引き下げ、o3-proのリリースに向けた準備を進めたと述べている。
価格が20ドル/80ドルであることは、-proバリアントがベースモデルの10倍の呼び出しコストであるという、未検証のコミュニティ理論を裏付けている。
超長コンテキスト
o3-proを1週間試用したHylak氏がまず最も感じたのは、その超長コンテキストの素晴らしさだったという。
以前、彼はoシリーズの推論モデルを扱っており、o1/o1-proに対してはかなり否定的な第一印象を抱いていたが、その後、自分が間違っていたことに気づいたという。
重要なのは、推論モデルとチャットするのではなく、レポート生成器として扱うことだ。つまり、コンテキストを与え、目標を設定し、あとはモデルに任せるのだ。
この方法で実測した結果、彼はo3-proがo3よりもはるかに賢く、はるかに知能が高いことを発見した!
これを実証するためには、より多くのコンテキストを与える必要がある。このため、彼と共同創業者Alexisは、Raindropの過去のすべての計画会議議事録を、すべての目標を含めて整理し、音声メモまで録音した。そしてo3-proに計画を立てさせた。
彼らはすぐに驚かされた!
o3-proは、目標指標、タイムライン、優先順位、そして削減すべき内容に関する厳格な指示を含む、非常に具体的な計画と分析を生成した。
o3と比較して、o3-proが提示した計画はより具体的で堅実であり、会社経営層の未来に対する考え方を直接変えた。
実世界との統合
今日のモデルは、非常にIQの高い12歳の子どものように、作業環境に統合される必要がある。この統合は主にツール呼び出しに依存し、人間、外部データ、他のAIとのモデルの連携能力が試される。
この点において、o3-proは真の飛躍を遂げた!
自身の環境を卓越して識別でき、アクセス可能なツールを正確に伝え、外部からの情報(情報を所有している/アクセス権限を持っていると偽るのではなく)をいつ尋ねるべきかを知り、適切なツールを選択してタスクを完了できる。
下図からわかるように、o3-pro(左)はo3(右)よりも、自身の置かれた環境の制約を明らかに正確に把握している。
もちろん、o3-proに欠点があるとすれば、十分なコンテキストが与えられないと、考えすぎてしまう傾向があることだ。
タスクを分析し、ツールを利用して完了させる能力は驚異的だが、タスクを直接完了させる能力はそれほど強くない。
要するに、o3-proの体験はGemini 2.5 ProやClaude Opusとは全く異なり、後者の2つを直接圧倒している。
期待されるのは、OpenAIがこの垂直RL(深層研究、Codex)の道を強力に推進していることだ。モデルにツールの使い方を教えるだけでなく、いつそれらのツールを使うべきかを推論する方法も教えている。
要するに、推論モデルの最高の性能を引き出すにはコンテキストが極めて重要であり、それはクッキーモンスターにクッキーを与えるようなものだ。これはLLMの記憶を活性化させる方法と考えることができる。
ネットユーザーによる実測
別のネットユーザーも密かにo3-proをしばらくテストしており、o3-proがo1-proよりもはるかに安く、速く、正確であることを発見したという!
さらに、o3とo3-proを使ったコーディングは、まさに雲泥の差だ。
o3-proは、ボールと壁の間の現実的な衝突をほぼ完璧に処理できる最初のモデルだ。
あるネットユーザーはo3-proに対し、人間の自然免疫システムの主要な限界を特定するよう求め、o3モデルにも同じ質問をした。
その結果、o3-proの回答は間違いなくより賢明で、より熟慮されており、新モデルの免疫システムに対する理解がより深まっていることを示している。
また、別のネットユーザーはo3-proを使って「マインクラフト」をプレイした。
例えば、自身の「壮大な表現」(プロンプト:A majestic representation of yourself)を作成したところ、その効果も驚くべきものだった。
さらに、o3に「詳細な海賊船」と「月面着陸」のシーンを作成させたところ、その完成度は非常に高かった。
また、別のネットユーザーは、たった2つのプロンプトで、o3-proに純粋なHTML、CSS、JSを用いて、1つのファイルで非常にクールな極限宇宙遊泳シミュレーターを作成させた。
その空間には、レトロなスタイルのシェーダー、蛍光灯、作動する霧、標識、地面の通気口、そして黒い隙間があった。
o1-proも失敗した多層符号化理解能力テストにおいて、o3-proは一度で合格した。
以下の乱雑なコードを入力すると、モデルはまずデコードし、次に暗黙のプロンプトを見つけ、最終的に正しい単語内容を出力する必要がある。
「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」
Ethan Mollick氏はo3-proが非常に知的であると考えており、他のモデルでは解決できなかった問題、つまりSpaceからEarthへの単語の階段を作成する問題を解決した。(注:一文字ずつ変えて、space—spare—...—garth—earthと続ける)
この問題において、o3-pro(左)はGemini 2.5 Pro(右)を打ち負かした。
他のネットユーザーはo3-proを使って研究した後、「Vibe Research」(雰囲気研究)という言葉まで提唱した!
彼は、科学研究の実施方法が間もなく根本的に変わり、大幅に向上すると大胆に予測している。
ネットユーザーがo3-proにマンデルブロ集合を含むExcelシートを作成するよう求めた。
各セルが1ピクセルで、数字を含むように要求された。最終的なo3-proの結果は非常に完璧だった!
o3の価格が80%暴落、Googleは持ちこたえられるか?
o3-proのリリースは、o3のトークン価格を引き下げる運命にあった。
元々o3は入力が100万トークンあたり10ドル、出力が100万トークンあたり40ドルだったが、現在は直接底値を突破し、80%も大幅に下がった。
つまり、今なら1ドルでo3のトークン量を5倍利用できるということだ。
Artificial Analysisのレポートでは、競合モデルとの価格比較が視覚化されている。
現在、o3の価格はGemini 2.5 Proよりも安く、Claude 4 Sonnetと同等だが、Claude 4 Opusと比較すると8倍も急落している。
自社モデルと比較すると、o3の価格はGPT-4oとほぼ同等で、出力価格はさらに安い。
画像生成機能は代替できないものの、o3の知能はGPT-4oを凌駕するのに十分だ。
さらに、o3はGPT-4.1のトークンあたりの価格と同等だ。しかし、o3はGPT-4.1の7倍のトークン量を出力するため、1回あたりのクエリコストははるかに高くなる。
o3の価格引き下げは、知能コストの継続的な急速な低下傾向を継続させている。
リリース以来、GPT-4レベルの知能を達成するコストは100倍以上削減され、同時に新しい知能の閾値を突破するコストも同期して低下している。
さらに、出力長の比較では、o3の応答内容はGemini 2.5 ProやDeepSeek R1よりもはるかに少ないが、Claude 4 Opusよりも多い。
参考文献:
https://x.com/gdb/status/1932561536268329463
https://www.latent.space/p/o3-pro
https://x.com/ArtificialAnlys/status/1932489573462081898
https://x.com/OpenAIDevs/status/1932532777565446348
https://help.openai.com/en/articles/9624314-model-release-notes
特典が来た:
ChatGPT、Claude、Gemini、Grok3、Midjourneyを一つにまとめた6-in-1システムを大々的にリリース!端午節の特別セールが始まり、更新特典もあります。
GPT4o、Claude、Grok3+Gemini proが全面開放!
半年購入で1ヶ月追加(計7ヶ月)
年間契約で3ヶ月追加(計15ヶ月)
購入方法:WeChatで私を追加してください【hsst1901】、備考:gpt、すぐに友達リクエストを承認します。
備考:gpt WeChatで問い合わせください
このアカウントを購入すれば、常にアフターサービスが付いてくるので、途中でアカウントが停止されたり使えなくなったりする心配がなく、非常に安心だ!