AI七個月突破數學家「圍剿」反超人類！14位數學家深入挖掘原始推理歷程：不靠死記硬背，憑藉直覺取勝

魚羊發自凹非寺量子位 | 公眾號 QbitAI

從只能答對2%的題目，到在超難數學題集中刷下22%的得分，甚至超越人類團隊的平均水平，大型模型需要多長時間？

現在，令數學家們都驚訝的結果已經塵埃落定：

7個月。

發生在大名鼎鼎「專為為難大型模型而生」的FrontierMath基準測試上的這一幕，在激起熱議的同時，也引發了新的思考：

大型模型們是怎麼做到的？

FrontierMath：包含300個數學問題，難度範圍涵蓋大學高年級到菲爾茲獎得主都稱難的水平。

最新進展是，FrontierMath官方Epoch AI邀請14位數學家，深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄。

他們發現：

o3-mini-high絕非靠死記硬背解題，相反，它表現出了極強的知識儲備；

o3-mini-high的推理更多依賴直覺，而非精確的證明。

同時，他們也挖掘出了大型模型目前的局限性，例如，缺乏創造力和理解深度。

官方是這樣總結的：

o3-mini-high可以被概括為：一款博學但以直覺為基礎的推理機，但缺乏職業數學家的創造力和形式感，並且往往絮絮叨叨、囉囉嗦嗦。

基於直覺的歸納推理機

具體來說，在29條推理記錄中，有13次o3-mini-high得到了正確的結論，剩下的16條則導向了失敗的結果。

先來看o3-mini-high是如何成功的。

數學家們發現，一個關鍵因素是o3-mini-high極其博學。

它正確地擴展了問題的數學背景，其中涉及非常高級的概念。

問題所涉及的一般知識，以及對問題的理解，對o3-mini-high而言不構成解題的瓶頸。

這並不是說o3-mini-high靠的是死記硬背。

相反，數學家們發現，即使題目故意掩蓋了解決問題所需的技巧，o3-mini-high依然能夠很好地利用正確的定理來取得進展——

在大約三分之二的問題上，o3-mini-high在相關數學文獻引用方面，都取得了至少3分（滿分5分）的成績。

另外一個有意思的發現是，相較於精確的推導，o3-mini-high看上去更依賴直覺，「具有數學家一樣的好奇心」。

一位數學家指出：

該模型的思維方式顯得有點非正式。一開始的思路表述通常比較粗糙，語言不夠嚴謹，並且存在一些不符合數學論文要求的特殊案例（corner case）。

也就是說，o3-mini-high往往不會像數學家們一樣，對數學問題進行形式化、嚴謹的論證，而是跳過一大串步驟直接猜測最終答案。

舉個例子，在一道題中，數學家們發現o3-mini-high透過非正式推理得出了一個正確的猜想，但它並沒有去證明這個猜想，還直接把這個猜想拿來解決問題了。

雖然最終答案正確，但在數學家們看來，這是在「作弊」。

為何如此？官方認為原因並不是簡簡單單的「模型偷懶」：有數學家指出，必要時模型並不害怕計算和編寫程式碼，儘管它總體上還是「基於直覺」。

一種可能性是，預訓練階段，在「形式推理」方面，模型被投餵的訓練資料並不充足。

模型局限性

寫完解直接給答案，讓人有點聯想到那個男人——

咳咳，不過事實上，缺乏形式精確性也正是導致o3-mini-high在許多情況下解題失敗的原因。

例如，有時候o3-mini-high大致上的思路是正確的，卻因為未能建立最後的關鍵連結而推理失敗。

在一道分割理論問題中，它距離答案只有一步之遙。出題者指出：

要是它能把從n=0到[已編輯]的輸出求和，答案就會是正確的。

而在更多情況下，o3-mini-high的想法距離正確解題方案相差甚遠。

更重要的是，數學家們認為，o3-mini-high最大的局限性在於缺乏創造力和理解深度：

該模型像一個博覽群書的研究生，能夠列舉許多研究成果和研究者。這乍一看令人印象深刻，但行家很快就會發現，這位研究生並沒有深度消化吸收這些材料，所做的只是複述。

該模型的行為模式類似於：擅長識別相關材料，但無法以新穎的方式擴展或應用這些知識。

還有參與研究的數學家指出：

o3-mini-high只嘗試應用了少數幾個它最喜歡的想法。

一旦這些想法用盡，它就得不到任何真正的進展了。

甚至：

對於AI來說，解決八年級奧數問題（需要新思路），可能比計算大有限域上某條超橢圓曲線上的點數更困難。

另外，「幻覺」也是個問題。

分析結果顯示，約75%的推理記錄中包含模型「幻覺」：

o3-mini-high經常會記錯數學術語和公式，在調用函式庫和網路搜尋等工具時，也會出現胡編亂造的現象。

所以，o3-mini-high究竟能不能像人類數學家一樣進行推理呢？

來看數學家們的評分：

1分表示完全不像人類，5分表示與人類數學家難以區分。

總的來說，還是得具體情況具體分析。官方認為，o3-mini-high擁有多樣化的能力。一方面，它似乎能夠像人類一樣推理問題，表現出好奇心，並探索解決問題的不同思路。

另一方面，它又表現出缺乏創造性和形式性，還傾向於「想太多」，顯得囉哩囉嗦，還偶爾出現自我懷疑的現象——不斷重複已經完成的句子、重複進行一些數學運算……

「超越世界上大多數數學研究生」

o3-mini-high這樣的模型為什麼沒有辦法更有效地利用豐富的數學知識，這個問題仍然有待進一步的研究。

但無論如何，7個月，從2%到22%，已經足夠令數學家們驚嘆。

事實上，從2024年9月FrontierMath專案啟動，到2025年5月，官方組織8支人類「數學天團」與大型模型同場競技，FrontierMath本身的難度也在持續進化。

從1-3級——涵蓋大學生、研究生和研究級別的挑戰，到現在已經進入第4級別：加入對數學家來說也具有挑戰性的問題。

在5月中旬，Epoch AI還舉辦了線下會議，邀請30位知名數學家設計自己能夠解決、但會讓AI犯難的問題。

而大型模型的表現有些讓數學家們目瞪口呆。

例如，弗吉尼亞大學數學家小野健提出了一個「博士級別」的數論問題。僅僅10分鐘，o4-mini就給出了一個正確又有趣的解決方案。

小野健表示：

我不想加劇恐慌。但在某些方面，大型語言模型的表現已經超越了世界上大多數最優秀的研究生。

數學家們開始思考，人工智慧能否攻克「第五層」問題，即最優秀的數學家也尚未解決的問題——

「如果人工智慧達到這個水平，數學家的角色將發生巨大的變化。」

參考連結：[1]https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning[2]https://epoch.ai/gradient-updates/is-ai-already-superhuman-on-frontiermath[3]https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

— 完 —

📪 量子位AI主題策劃正在徵集中！歡迎參與專題365行AI落地方案，一千零一個AI應用，或與我們分享你在尋找的AI產品，或發現的AI新動向。

💬 也歡迎你加入量子位每日AI交流群，一起來暢聊AI吧～

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法！

AI七個月突破數學家「圍剿」反超人類！14位數學家深入挖掘原始推理歷程：不靠死記硬背，憑藉直覺取勝

分享短網址