世界頂尖數學家對人工智慧在工作中的熟練程度感到震驚

「我的同事們真的說這些模型接近數學天才了」

作者:Lyndie Chiou 編輯:Clara Moskowitz

五月中旬的一個週末,一場秘密的數學會議召開了。30 位世界最著名的數學家齊聚加州柏克萊,其中一些人甚至來自遙遠的英國。小組成員與一個「推理」聊天機器人展開對決,該機器的任務是解決他們為測試其數學能力而設計的問題。在向機器人拋出兩天教授等級的問題後,研究人員驚訝地發現,它能夠回答一些世界上最難解決的問題。「我的同事們真的說這些模型接近數學天才了,」維吉尼亞大學數學家、會議領導者兼評委 Ken Ono 說。

該聊天機器人由 o4-mini 提供支援,這是一種所謂的推理大型語言模型 (LLM)。它由 OpenAI 訓練,能夠進行高度複雜的推理。Google 的同類產品 Gemini 2.5 Flash 具有類似的能力。與支援早期版本 ChatGPT 的 LLM 一樣,o4-mini 可以學習預測序列中的下一個詞。然而,與早期的 LLM 相比,o4-mini 及其等效模型更輕量級、更靈活,它們在專門的資料集上進行訓練,並有來自人類的更強的強化。這種方法使聊天機器人能夠比傳統的 LLM 更深入地研究複雜的數學問題。

為了追蹤 o4-mini 的進展,OpenAI 此前委託 Epoch AI(一家負責對 LLM 進行基準測試的非營利組織)設計 300 道尚未公布答案的數學題。即使是傳統的 LLM 也能正確回答許多複雜的數學問題。然而,當 Epoch AI 向幾個這樣的模型提出這些問題(這些問題與它們之前訓練過的問題不同)時,最成功的模型也只能解答不到 2%,這表明這些 LLM 缺乏推理能力。但 o4-mini 最終將證明它與眾不同。

Epoch AI 聘請了最近獲得數學博士學位的 Elliot Glazer 加入新的基準測試合作專案,該專案名為 FrontierMath,將於 2024 年 9 月開展。該專案收集了不同難度等級的新問題,前三個等級涵蓋大學生、研究生和研究等級的挑戰。到 2025 年 2 月,Glazer 發現 o4-mini 可以解決大約 20% 的問題。然後,他進入了第四個等級:100 個即使對學術數學家來說也具有挑戰性的問題。世界上只有一小部分人能夠設計出這樣的問題,更不用說回答它們了。參與的數學家必須簽署保密協議,要求他們只能透過訊息應用程式 Signal 進行交流。其他聯絡方式,例如傳統電子郵件,可能會被大型語言模型掃描並無意中對其進行訓練,從而汙染資料集。

小組在尋找問題方面進展緩慢,但進展穩定。但 Glazer 希望加快速度,因此 Epoch AI 於 5 月 17 日(週六)和 5 月 18 日(週日)舉辦了線下會議。屆時,參與者將敲定最後一批挑戰性問題。Ken Ono 將 30 位與會者分成六人一組。在兩天的時間裡,學者們相互競爭,設計出自己能夠解決但會讓 AI 推理機器人無法解答的問題。每解決一個 o4-mini 無法解答的問題,提出該問題的數學家都將獲得 7,500 美元的獎勵。

到了那個週六晚上,Ken Ono 對這個機器人感到很失望,它出乎意料的數學能力阻礙了團隊的進展。「我提出了一個問題,我們領域的專家都會認為這是一個數論中的開放性問題——一個博士等級的難題,」他說。他讓 o4-mini 來解決這個問題。在接下來的 10 分鐘裡,Ken Ono 目瞪口呆地看著機器人即時展現出解決方案,並演示了它的推理過程。前兩分鐘,機器人查找並掌握了該領域的相關文獻。然後,它在螢幕上寫道,它想先嘗試解決一個更簡單的「玩具」版本的問題,以便學習。幾分鐘後,它寫道,它終於準備好解決更難的問題了。五分鐘後,o4-mini 給出了一個正確但又調皮的解決方案。「它開始變得非常調皮了,」Ken Ono 說道,他同時也是 Epoch AI 的自由數學顧問。「最後還寫道,『無需引述,因為這個神秘數字是我計算出來的!』」

失敗後,Ken Ono 在週日清晨跳上 Signal,通知了其他參賽者。「我沒想到會和這樣的大型語言模型競爭,」他說,「我從未在模型中見過這種推理。這才是科學家該做的事。這太可怕了。」

雖然團隊最終成功找到了 10 個讓機器人難以應對的問題,但研究人員對人工智慧在一年時間裡取得的進步感到震驚。Ken Ono 將其比作與一位「強大的合作夥伴」合作。倫敦數學科學研究所的數學家、人工智慧在數學領域應用的早期先驅 Yang Hui 表示:「這相當於一個非常優秀的研究生會做的事情——事實上,做得更多。」

該機器人的速度也比專業數學家快得多,只需幾分鐘就能完成人類專家需要數週或數月才能完成的工作。

與 o4-mini 的較量雖然激動人心,但它的進展也令人擔憂。Ken Ono 和 Yang Hui 表示擔心,o4-mini 的結果可能被過度信任。「有歸納證明,有反證證明,還有恐嚇式證明,」Yang Hui 說道。「如果你說的話足夠權威,人們就會感到害怕。我認為 o4-mini 已經掌握了恐嚇式證明的技巧;它說的每句話都充滿自信。」

會議結束時,小組開始思考數學家的未來。討論轉向了不可避免的「第五層」問題——即使是最優秀的數學家也無法解決的問題。如果人工智慧達到這個水平,數學家的角色將發生巨大的變化。例如,數學家可能會轉向簡單地提出問題並與推理機器人互動,以幫助他們發現新的數學真理,就像教授對待研究生一樣。因此,Ken Ono 預測,在高等教育中培養創造力將是數學傳承給子孫後代的關鍵。

「我一直告訴我的同事,說通用人工智慧永遠不會到來、它只是一台電腦,這是一個嚴重的錯誤,」Ken Ono 說。「我不想加劇這種恐慌,但在很多方面,這些大型語言模型的表現已經超越了我們世界上大多數最優秀的研究生。」

在秘密數學會議上,研究人員努力超越人工智慧:https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

主標籤:人工智慧

次標籤:數學人機互動未來工作人工智慧研究大型語言模型


上一篇:李飛飛最新訪談:世界模型即將「降臨」

下一篇:《人類大歷史》作者哈拉瑞:AI 是正在崛起的新物種!

分享短網址