新智元報導
編輯:桃子
【新智元導讀】GPT-5首次通過「哥德爾測試」,連破三大組合最佳化猜想!甚至,它能自主推翻原有猜想,給出全新有效解法,當場驚呆OpenAI研究科學家。
AI迎來歷史性一刻!
GPT-5成功破解三大猜想,通過了「哥德爾測試」。
OpenAI科學家Sebastien Bubeck驚歎地表示,這類開放性問題,頂尖博士生往往耗費數日才能解決。
不同以往,這項由海法大學和思科主導的研究,首次讓AI直面「開放性數學猜想」的挑戰。
論文地址:https://arxiv.org/pdf/2509.18383
論文中,團隊設計了五項「組合最佳化」領域的測試任務,每項任務提供1-2篇文獻作為瞭解。
在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。
令人驚喜的是,在猜想二中,它不僅成功求解,還推導出與研究人員預期不同的有效解法,顛覆了原有猜想。
這一突破,標誌著頂尖AI正從「學習數學」邁向「真正做數學」的關鍵跨越。
不難看出,AI正為數學發現做出實質性貢獻,提前預演了2030年代科研範式的深遠變革。
AI單挑「哥德爾測試」
遠超陶哲軒想像
此前,陶哲軒曾分享了自己與OpenAI o1合作經驗,生動地將其比作「指導一名平庸,但並非完全無能的研究生」。
在他看來,LLM雖能在大量提示後,逐步得出解決方案,但無法獨立生成關鍵概念性想法。
不過,經過一兩次迭代,結合工具,AI就能達到「合格研究生」的水平。
OpenAI和Google均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。
但這個具有挑戰性的問題,畢竟是為高中生設計的。
在最新論文中,研究焦點不同:讓AI處理更高級的數學猜想,即「哥德爾測試」。
這些猜想要求的不只是解題能力,還需要整合背景知識和創新思維。
為此,研究人員從「組合數學」的子領域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數學推理範圍內。
與陶哲軒實驗不同,團隊沒有提供大量提示或指導。
論文中,他們精心設計了五大猜想。
只給每個問題一個最小化描述,外加上1-2篇參考文獻。
難度設定為:優秀大學生、研究生,有望在一天內解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。
GPT-5的任務是,基於有限輸入,生成完整證明。
這模擬了真實研究場景:數學家往往從少量線索出發,獨立探索。
在測試中,GPT-5表現既有亮點,也有短板,一起看看具體的解題能力。
GPT-5破解三大猜想
猜想一:「單調+非單調」的子模函數在凸多面體上取最大值
這個要求似乎是讓「兩種互相制肘的收益」加在一起最大化:
一部分收益 G 會越加越多(單調),另一部分 H 可能先增後減(非單調),而選擇必須落在一個「不能超過上限」的凸集合裡。
GPT-5的做法是套用連續Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,並使用「遮罩」保證不越界。
它把參考論文裡「凹函數」的位置換成 H,推導了一個遞推式,最後得到一個拆分保證——
至少拿到約63%的G(o),再加上37%的H(o)(若H也單調則也是63%),外加一個隨步長參數ε線性衰減的小誤差。
猜想二:p-系統約束下的「雙準則」演算法
這題允許「價值幾乎最佳(1−ε)」,但在可行性上稍微超一點(放寬倍數 g(ε)),目標是在越廣泛的p-系統約束下把 g(ε) 壓到盡量小。
GPT-5提出了一個樸素而有效的流程,每一輪都在當前解的基礎上,再做一次「在約束裡盡可能最有價值」的貪心選集(greedy),最後把若干輪的結果合併起來。
證明關鍵是:每一輪都能把「距離最佳」的差距按 p/(p+1) 的比例縮小,多滾幾輪差距就指數式消退,於是只要做 ℓ≈ln(1/ε)/ln((p+1)/p) 輪,就能把價值推到 1−ε。
這也意味著,放寬倍數 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。
部分解題過程如下:
令人意想不到的是,猜想二中,GPT-5甚至推導出不同的近似保證,經核查後推翻原有猜想,並提供了有效解。
猜想三:γ-弱DR子模+凸約束的最大化
這個猜想把「邊際收益遞減」的連續版放寬為一個強度參數 γ(γ=1即標準情形;γ越小,遞減越弱)。
GPT-5還是使用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,並靠平滑性控制離散化誤差。
核心一步是把經典證明中的關鍵不等式按 γ 縮放,於是把著名的 1−1/e 近似比提升為更一般的 1−e^{−γ},再加上一個可調的 L/(2K) 級別誤差項(K 為迭代輪數)。
在研究人員看來,結論與推理主體是可靠的。
只是GPT-5多假設了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節有點不一致。
可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現不錯——五道題裡有三道能給出幾乎正確的證明。
一旦需要把不同證明結合起來,比如4和5,GPT-5就搞不定了。
猜想五中,GPT-5倒是識別出了和作者設想一樣的演算法,但分析得不對。
他們後來覆盤發現,這個證明其實有可能做出來,只是難度比預想的高。比起早期模型,GPT-5在組合最佳化這種專業領域裡,數學能力明顯進步,偶爾還會冒出一些小創新。
這恰恰說明了,它現在還缺乏「整合性推理」能力,這是個主要短板。
作者介紹
Moran Feldman
Moran Feldman是海法大學電腦科學系的教授。
在此之前,他曾擔任以色列開放大學的教職,並在洛桑聯邦理工學院(EPFL)擔任博士後研究員,師從Ola Svensson教授。
Amin Karbasi
Amin Karbasi思科基金會AI負責人,曾任Robust Intelligence首席科學家,耶魯大學教授,Google工程師。
參考資料: