剛才,GPT-5首次通過「哥德爾測試」!破解三大數學猜想

圖片

新智元報導

編輯:桃子

【新智元導讀】GPT-5首次通過「哥德爾測試」,連破三大組合最佳化猜想!甚至,它能自主推翻原有猜想,給出全新有效解法,當場驚呆OpenAI研究科學家。

AI迎來歷史性一刻!

GPT-5成功破解三大猜想,通過了「哥德爾測試」。

圖片

OpenAI科學家Sebastien Bubeck驚歎地表示,這類開放性問題,頂尖博士生往往耗費數日才能解決。

不同以往,這項由海法大學和思科主導的研究,首次讓AI直面「開放性數學猜想」的挑戰。

圖片

論文地址:https://arxiv.org/pdf/2509.18383

論文中,團隊設計了五項「組合最佳化」領域的測試任務,每項任務提供1-2篇文獻作為瞭解。

在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。

圖片

令人驚喜的是,在猜想二中,它不僅成功求解,還推導出與研究人員預期不同的有效解法,顛覆了原有猜想。

這一突破,標誌著頂尖AI正從「學習數學」邁向「真正做數學」的關鍵跨越。

不難看出,AI正為數學發現做出實質性貢獻,提前預演了2030年代科研範式的深遠變革。

圖片

圖片

AI單挑「哥德爾測試」

遠超陶哲軒想像

此前,陶哲軒曾分享了自己與OpenAI o1合作經驗,生動地將其比作「指導一名平庸,但並非完全無能的研究生」。

在他看來,LLM雖能在大量提示後,逐步得出解決方案,但無法獨立生成關鍵概念性想法。

不過,經過一兩次迭代,結合工具,AI就能達到「合格研究生」的水平。

圖片

OpenAI和Google均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。

但這個具有挑戰性的問題,畢竟是為高中生設計的。

圖片

在最新論文中,研究焦點不同:讓AI處理更高級的數學猜想,即「哥德爾測試」。

這些猜想要求的不只是解題能力,還需要整合背景知識和創新思維。

為此,研究人員從「組合數學」的子領域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數學推理範圍內。

與陶哲軒實驗不同,團隊沒有提供大量提示或指導。

論文中,他們精心設計了五大猜想。

只給每個問題一個最小化描述,外加上1-2篇參考文獻。

難度設定為:優秀大學生、研究生,有望在一天內解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。

GPT-5的任務是,基於有限輸入,生成完整證明。

這模擬了真實研究場景:數學家往往從少量線索出發,獨立探索。

在測試中,GPT-5表現既有亮點,也有短板,一起看看具體的解題能力。

圖片

GPT-5破解三大猜想

猜想一:「單調+非單調」的子模函數在凸多面體上取最大值

這個要求似乎是讓「兩種互相制肘的收益」加在一起最大化:

一部分收益 G 會越加越多(單調),另一部分 H 可能先增後減(非單調),而選擇必須落在一個「不能超過上限」的凸集合裡。

圖片

GPT-5的做法是套用連續Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,並使用「遮罩」保證不越界。

它把參考論文裡「凹函數」的位置換成 H,推導了一個遞推式,最後得到一個拆分保證——

至少拿到約63%的G(o),再加上37%的H(o)(若H也單調則也是63%),外加一個隨步長參數ε線性衰減的小誤差。

圖片

猜想二:p-系統約束下的「雙準則」演算法

這題允許「價值幾乎最佳(1−ε)」,但在可行性上稍微超一點(放寬倍數 g(ε)),目標是在越廣泛的p-系統約束下把 g(ε) 壓到盡量小。

圖片

圖片

GPT-5提出了一個樸素而有效的流程,每一輪都在當前解的基礎上,再做一次「在約束裡盡可能最有價值」的貪心選集(greedy),最後把若干輪的結果合併起來。

證明關鍵是:每一輪都能把「距離最佳」的差距按 p/(p+1) 的比例縮小,多滾幾輪差距就指數式消退,於是只要做 ℓ≈ln(1/ε)/ln((p+1)/p) 輪,就能把價值推到 1−ε。

這也意味著,放寬倍數 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。

部分解題過程如下:

圖片

令人意想不到的是,猜想二中,GPT-5甚至推導出不同的近似保證,經核查後推翻原有猜想,並提供了有效解。

猜想三:γ-弱DR子模+凸約束的最大化

這個猜想把「邊際收益遞減」的連續版放寬為一個強度參數 γ(γ=1即標準情形;γ越小,遞減越弱)。

圖片

GPT-5還是使用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,並靠平滑性控制離散化誤差。

核心一步是把經典證明中的關鍵不等式按 γ 縮放,於是把著名的 1−1/e 近似比提升為更一般的 1−e^{−γ},再加上一個可調的 L/(2K) 級別誤差項(K 為迭代輪數)。

在研究人員看來,結論與推理主體是可靠的。

只是GPT-5多假設了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節有點不一致。

圖片

可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現不錯——五道題裡有三道能給出幾乎正確的證明。

一旦需要把不同證明結合起來,比如4和5,GPT-5就搞不定了。

猜想五中,GPT-5倒是識別出了和作者設想一樣的演算法,但分析得不對。

他們後來覆盤發現,這個證明其實有可能做出來,只是難度比預想的高。比起早期模型,GPT-5在組合最佳化這種專業領域裡,數學能力明顯進步,偶爾還會冒出一些小創新。

圖片

這恰恰說明了,它現在還缺乏「整合性推理」能力,這是個主要短板。

圖片

作者介紹

Moran Feldman

圖片

Moran Feldman是海法大學電腦科學系的教授。

在此之前,他曾擔任以色列開放大學的教職,並在洛桑聯邦理工學院(EPFL)擔任博士後研究員,師從Ola Svensson教授。

Amin Karbasi

圖片

Amin Karbasi思科基金會AI負責人,曾任Robust Intelligence首席科學家,耶魯大學教授,Google工程師。

參考資料:

https://arxiv.org/abs/2509.18383

https://x.com/tunedgradient/status/1970955153361850606

主標籤:人工智慧

次標籤:大型語言模型GPT-5組合最佳化數學證明


上一篇:中國團隊訓練出「脈衝大模型」,推理速度提升100倍

下一篇:先驗與後驗機制加持,大型模型能否應對推理預測中的現實「溢出」?

分享短網址