OpenAI 最強推理模型 o3-pro 剛誕生!輾壓 Gemini 2.5 Pro!

Image

轉自 | 新智元

【新智元導讀】最強推理模型一夜易主!深夜時分,o3-pro 毫無預警地悄然上線,瞬間刷新數學、程式設計與科學領域的基準測試紀錄,並強勢碾壓 o1-pro 和 o3。更令人驚豔的是,o3 的價格直接暴降 80%,直接叫板 Gemini 2.5 Pro。

毫無一絲防備,o3-pro 就這樣低調地登場了!

昨夜,OpenAI 連連放出大招,先是將 o3 價格暴降 80%,接著又正式宣布推出史上最強的推理模型——o3-pro。

Image

相較於 o3,o3-pro 可要強大太多了。

奧特曼表示:「當我第一次看到它相對於 o3 的勝率時,我完全驚呆了。」

Image

Image

o3-pro 不再僅僅是一個通用型助理,它是一個兼具長思考、超長上下文及工具調用於一身的超級智慧 AI。

在多項基準測試中,o3-pro 在數學、科學和程式設計方面的表現令人驚豔,大幅超越了 o1-pro。

甚至,在各界大佬首次測試後發現,連 Gemini 2.5 Pro(0605)和 Claude 4 Opus 都被它碾壓。

Image

甚至,它的價格只有 o1-pro 的 87%,輸入每百萬 token 20 美元,輸出每百萬 token 80 美元。

Image

隨之而來降價的 o3,更是讓 AI 圈為之震驚。現在,輸入每百萬 token 2 美元,輸出每百萬 token 8 美元,簡直媲美 GPT-4o。

Image

目前,o3-pro 已向所有 ChatGPT Pro、Team 用戶推出,o1-pro 模型則直接被淘汰。

o3-pro 一發布,奧特曼隨即發布最新長文《溫和的奇點》,直接暗示人類已經跨越了臨界點,科技大爆發正式開始。

Image

更值得期待的是,奧特曼劇透,OpenAI 的開源模型將於夏末發布,但不會在六月。

Image

Image

o3-pro 一夜封神,數學程式設計全開掛

模型卡介紹,o3-pro 是 o3 最強的推理版本,專為深度思考和提供超可靠答案而生。

它可以自動調用工具,包括網頁搜尋、文件分析、視覺輸入推理、Python 程式碼執行,還能透過記憶功能實現個人化回答。

Image

在專家評估中,評審者更青睞 o3-pro,尤其是在科學、教育、程式設計、商業和寫作輔助等領域。

此外,他們還一致認為,o3-pro 在清晰度、全面性、指令遵循度及準確性方面表現更為優異。

Image

在 AIME 2024、GPQA、Codeforces 這三大測試中,o3-pro 取得了最高分,完全輾壓 o1-pro 和 o3。

Image

另外,在更嚴格的「4/4 可靠性」評估標準下——只有模型在 4 次嘗試中均回答正確,才算成功。

如下所示,o3-pro 在數學、程式設計及博士級科學問答中,大幅超越了 o1-pro 和 o3。

Image

最終結論是,o3-pro 與 o3 基本持平,而 o3 的新定價則刷新了 ARC-AGI-1 的 SOTA(State Of The Art,最新技術水準)。

Image

OpenAI 表示,由於 o3-pro 會調用工具並拉長思考時間,其回應速度通常會比 o1-pro 慢。

有網友 Yuchen Jin 實際測試後發現,自己僅輸入「Hi im sam Altman」,o3-pro 就足足思考了 3 分 54 秒,最長甚至能達到 13 分鐘。

燒了這麼多錢,卻只回覆一句「Hi」,ChatGPT 此刻的內心獨白還無法得知。

ImageImage

當然,OpenAI 也發出提醒,最好是在可靠性優先於速度的複雜問題上,才使用 o3-pro。

除此之外,o3-pro 還存在一些限制:

由於正在解決技術問題,o3-pro 暫時不支援臨時對話功能。

o3-pro 不支援圖像生成,如需生成圖像,仍需尋求 GPT-4o、o3 或 o4-mini 的協助。

o3-pro 也不支援 Canvas 功能。

即便如此,o3-pro 已經足夠聰明、足夠智慧。

Image

Image

AI 業界大佬首次測試,感受 AGI

Raindrop.ai 的 Ben Hylak 提早獲得了 o3-pro 的實際測試資格,並帶來了世界上首個早期的 o3-pro 評測。

Image

Hylak 表示,OpenAI 將 o3 價格降低了 80%,以作為 o3-pro 發布的預熱。

售價為 20/80 美元,這恰好支持了一個未經證實的社群理論:-pro 變體是基礎模型的 10 倍調用成本。

Image

超長上下文

試用 o3-pro 一週的 Hylak 表示,他最大的感受就是,它的超長上下文能力太厲害了!

此前,他一直與 o 系列的推理模型打交道,對 o1/o1-pro 的第一印象相當負面,但隨後他意識到自己錯了。

關鍵在於,不要與推理模型聊天,而是將它們視為報告生成器:提供上下文,設定目標,然後放手讓它們自行運作。

利用這個方法實際測試後,他發現:o3-pro 比 o3 聰明太多、智慧太多了!

Image

為了體現這一點,你需要給它提供更多的上下文。為此,他和聯創 Alexis 整理了 Raindrop 所有過去的規劃會議記錄,包括所有目標,甚至錄下了語音備忘錄:然後讓 o3-pro 來制定計畫。

他們立刻被驚豔了!

o3-pro 生成了一個非常具體的計畫和分析,包括目標指標、時間表、優先事項,以及嚴格指示必須削減的內容。

相較於 o3,o3-pro 提供的計畫更加具體、更加扎實,直接改變了公司領導層對於未來的思考方式。

Image

Image

與真實世界整合

如今的模型,就像一個智商極高的 12 歲少年,需要融入工作環境。而這種整合,主要依賴於工具調用,以考驗模型與人類、外部資料以及其他 AI 的協作能力。

在這方面,o3-pro 實現了真正的飛躍!

它能出色地辨別自身環境;能準確傳達自己可訪問的工具,知道何時向外部世界詢問資訊(而不是假裝自己擁有資訊/權限),並選擇合適的工具來完成工作。

從下圖可以看出,o3-pro(左)明顯比 o3(右)更清楚地了解自己所處環境的限制。

Image

Image

當然,如果說 o3-pro 有什麼缺點,那就是如果不給它足夠的上下文,它就容易想太多。

它在分析和利用工具完成任務上都令人驚嘆,但直接完成任務的能力就不那麼強了。

Image

總而言之,o3-pro 與 Gemini 2.5 Pro、Claude Opus 的使用體感截然不同,直接輾壓後兩者。

而令人期待的是,OpenAI 正大力推動這一垂直強化學習(RL)的路徑(深度研究、Codex),不僅教導模型如何使用工具,還教導它們如何推理何時使用這些工具。

Image

總而言之,要實現推理模型的最佳效能,上下文至關重要,這就像給餅乾怪獸餵食餅乾一樣。可以認為,這是一種啟動大型語言模型記憶的方式。

Image

網友實際測試

另有網友已經秘密測試 o3-pro 一段時間了,他發現 o3-pro 比 o1-pro 更便宜(許多)、更快、更精確!

而且使用 o3 和 o3-pro 進行編碼簡直是天壤之別。

o3-pro 是第一個能夠近乎完美地處理球與牆壁之間真實碰撞的模型。

Image

有網友要求 o3-pro 識別我們人類天然免疫系統的關鍵局限性,並向 o3 模型提出了同樣的問題。

結果是 o3-pro 的回覆無疑更加明智、更加深思熟慮,表明新模型對免疫系統的理解更加深刻。

Image

還有網友用 o3-pro 來玩《當個創世神》(Minecraft)。

比如創建自己的「宏偉形象」(提示:A majestic representation of yourself),效果也很驚豔。

Image

還有要求 o3 創建「細節豐富的海盜船」和「登月」場景,完成度非常之高。

Image

還有網友只用 2 個提示,o3-pro 就用純 HTML、CSS 和 JS 在一個文件中製作出非常酷的極限太空漫步模擬器。

空間中包含復古風格的著色器、螢光燈、工作霧氣、標誌、地面通風口,還有黑色空隙。

Image

在 o1-pro 也失敗的多層編碼理解能力測試中,o3-pro 也一次性通過。

輸入以下亂碼,模型需要先解碼再找到隱式提示詞,並最終輸出正確的單詞內容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Image

Ethan Mollick 認為 o3-pro 相當智慧,它解決了一個其他模型都無法解決的問題:製作從 Space 到 Earth 的單詞階梯。(註:即每次改變一個字母,從 space—spare—...—garth—earth)

在這個問題上,o3-pro(左)擊敗了 Gemini 2.5 Pro(右)。

Image

其他網友在使用 o3-pro 進行研究後,甚至提出了「Vibe Research」(氛圍研究)的說法!

他大膽預測,進行科學研究的方式將很快徹底改變並顯著提升。

網友讓 o3-pro 創建一個包含曼德博集合的 Excel 表格。

要求每個單元格都是一個像素,並包含一個數字。最終 o3-pro 給出的結果非常完美!

Image

Image

o3 價格暴降 80%,Google 繃不住了嗎?

o3-pro 的上線,註定要拉低 o3 的 token 價格。

原來 o3 輸入每百萬 token 10 美元,輸出每百萬 token 40 美元,現在直接擊穿底價,狂降 80%。

Image

這麼說吧,如今 1 美元,就能用上 5 倍的 o3 token 量。

Image

在 Artificial Analysis 報告中,將其與競爭對手模型的價格進行了視覺化對比。

現在,o3 的價格比 Gemini 2.5 Pro 還要便宜,與 Claude 4 Sonnet 相當,但相較於 Claude 4 Opus,更是暴降 8 倍。

Image

相較於自家模型,o3 價格與 GPT-4o 不相上下,甚至輸出價格還要更低。

除了生成圖像無法替代,o3 的智慧足以超越 GPT-4o。

此外,o3 還與 GPT-4.1 每 token 價格持平。不過,前者輸出 token 量是 GPT-4.1 的 7 倍,因此每次查詢成本也要高得多。

Image

o3 價格拉低,延續了智慧成本持續快速下降的趨勢。

自發布以來,達到 GPT-4 級別智慧的成本已降低超過 100 倍,同時突破新智慧門檻的成本也在同步下降。

Image

此外,在輸出長度比較中,o3 回覆內容比 Gemini 2.5 Pro 和 DeepSeek R1 少很多,但比 Claude 4 Opus 多。

Image

參考資料:

https://x.com/gdb/status/1932561536268329463

https://www.latent.space/p/o3-pro

https://x.com/ArtificialAnlys/status/1932489573462081898

https://x.com/OpenAIDevs/status/1932532777565446348

https://help.openai.com/en/articles/9624314-model-release-notes

好康來襲:

重磅推出 ChatGPT、Claude、Gemini、Grok3、Midjourney 六合一系統!端午節優惠活動來了,還有續費福利。

Image

GPT-4o、Claude、Grok3+Gemini pro 全面開放了!

購買半年多送 1 個月(共 7 個月)

包年多送 3 個月(共 15 個月)

購買方法:加我微信【hsst1901】,備註:gpt,我會立刻通過您的微信好友請求。

Image

備註:gpt 加我微信諮詢

購買這個帳號,一直有售後服務,不用擔心中途被封號或無法使用,非常省心!

主標籤:人工智慧

次標籤:大型語言模型o3-proAI定價效能評測AI模型OpenAI


上一篇:溫和的奇點|Sam Altman 最新雄文

下一篇:奧特曼:「溫和的奇點」降臨!AI最終掌控物理世界,2030年人類命運大轉折

分享短網址