大型語言模型數獨解不好?!Transformer 作者新創公司公布排行榜:o3 Mini High「變異數獨」正確率僅 2.9%

聞樂 發自 凹非寺 量子位 | 公眾號 QbitAI

大型語言模型解數獨,總體正確率竟然只有15%???

圖片

繼推出自帶十篇完整學術論文的史上首個「AI科學家」之後,Transformer 作者 Llion Jones 又帶著他的新創公司 Sakana AI 來搞事情了。

這次,Sakana AI 公布了一個 AI 模型解決數獨問題能力的排行榜。

該公司推出的全新基準 Sudoku-Bench 包含了從簡單的 4x4 到複雜的 9x9 現代數獨問題,旨在考驗大型語言模型的創造性推理能力。

榜單顯示,大型語言模型不僅總體正確率只有 15%,在 9×9 的現代數獨中,即使是高效能模型 o3 Mini High,正確率也只有 2.9%。

圖片

Sudoku-Bench 專案在 2025 年 NVIDIA GTC 開發者大會上進行了展示。

NVIDIA 執行長黃仁勳對此評論道:

像數獨這樣的謎題將有助於提高 AI 的推理能力。

圖片

Sudoku-Bench 全新基準測試

Sudoku-Bench 是 Sakana AI 在今年 3 月發布的一項由不同難度級別的數獨謎題組成的基準測試,用於衡量人工智慧的多層次和創造性推理能力。

1、現有問題:大型語言模型的「記憶依賴症」

目前大多數推理基準測試存在一個缺陷:大型語言模型往往透過記憶標準答案或固定模式來完成任務,而不是真正運用邏輯推理能力。

當遇到與訓練資料中「類似」的問題時,模型會直接套用記憶中的解決方案,而非透過邏輯推導得出答案。

對於全新規則或未見過的模式,模型往往無法有效應對,因為缺乏可直接匹配的記憶模板。

傳統數獨遊戲對大型語言模型來說可能已經「太簡單」,它們可能只是記住了套路,而不是學會如何創造性地解決新問題。

2、解決方案:Sudoku-Bench 用「變異數獨」考倒大型語言模型

近年來,各種各樣具有獨特規則的衍生謎題出現。

這些「變異數獨」謎題需要多步驟和創造性的推理技巧,但只有一個正確答案,特點是無法透過記憶解決,必須透過多步邏輯推理找到「突破口」。

這些特點使得「變異數獨」成為測試 AI 推理能力的理想選擇。

以下就是一個「變異數獨」範例,你不僅需要遵循原始規則,而且沿著彩色線條排列的數字還需要遵循額外的規則。

圖片

Sudoku-Bench 基準包括傳統和現代數獨(變異數獨)問題,難度分級,從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。

圖片

Sudoku-Bench 還包含了由 Nikoli(日本著名的數獨公司,數獨正是其名稱的由來)提供的 100 道手工數獨題。

圖片

3、大型語言模型的「慘敗」:基準實驗結果

在今年 3 月該基準發布後,研究人員測試了多個 AI 模型,包括 Gemini 2.5 Pro、GPT-4.1、Claude 3.7 等在內的最先進大型語言模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,並評估它們完成謎題的能力。

圖片

結果顯示,一些模型在這種輔助下表現得相當不錯,但關鍵結果在於最後兩欄。

即使是最先進的模型,平均連一個正確的數字都放不下,而 OpenAI 最新的推理模型 ChatGPT o3 是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示:

無工具輔助時,所有模型在 100 個謎題中的總體正確率低於 15%;

小網格(4x4)表現稍好(40%-73% 正確率),但 9x9 網格幾乎全敗,正確率接近 0%,即使是高效能模型「o3 Mini High」的正確率也只有 2.9%。

模型常犯錯誤包括:錯誤解答、放棄解題、誤判規則矛盾,尤其是面對需要「突破口」的謎題時,只會盲目猜測,無法像人類一樣透過邏輯鏈縮小搜索範圍。

圖片

測試團隊詳細列出了模型在每個謎題上的表現,感興趣的朋友可點擊文末連結查看~

關於 Sakana AI

Sakana AI 由前 Google 研究人員 Llion Jones(Transformer 作者之一)和 David Ha 於 2023 年 7 月在東京成立,主要對生成文本和圖像的 AI 基本模型進行研究。

此前,該公司開源發布了 AI 科學家和 AI 審稿人,前者一推出就獨自完成了十篇完整的學術論文,包括但不限於擴散模型方向、Transformer 與強化學習等,引起了不小的轟動。

後者能對 AI 撰寫的論文進行評審,提供改進意見,主打「以我之矛攻我之盾」。

圖片

該公司還發布了一種名為「連續思維機器 (CTM)」的新型 AI 模型,透過像人類一樣「逐步」思考並學習世界的內部模型,超越了簡單的模式識別,並獲得了逐步解決迷宮等複雜問題的能力。

圖片

Sakana AI 還與 Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic 每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。

圖片

Sakana AI 獲得了這些影片的文字記錄以及答題過程中採取的行動資料。這些資料可以作為訓練 AI 推理模型的理想資料,並與 Sudoku-Bench 一起發布。

圖片

著名的數獨出題人 Marty Sears 還為 Sakana AI 量身定制了一款名為「奇偶魚」的數獨遊戲:沿著 Sakana AI 紅色標誌線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~

圖片

技術報告:https://arxiv.org/abs/2505.16135排行榜:https://pub.sakana.ai/sudoku/Github:https://github.com/SakanaAI/Sudoku-Bench奇偶魚題目:https://sudokupad.app/wsj7iunsg6解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU參考連結:[1]https://x.com/SakanaAILabs/status/1926905826465161629[2]https://sakana.ai/sudoku-bench/

— 完 —

📪 量子位 AI 主題企劃正在徵集中!歡迎參與專題 365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產品,或發現的 AI 新動向。

💬 也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~

圖片

一鍵追蹤 👇 點亮星標

科技前沿進展每日見

一鍵三連「點讚」「分享」「收藏」

歡迎在評論區留下你的想法!

主標籤:人工智慧

次標籤:大型語言模型Sakana AI數獨推理能力


上一篇:Andrej Karpathy 盛讚!史丹佛團隊新作,讓 Llama-1B 實現毫秒級推論

下一篇:Anthropic執行長失業「暴論」引爭議!AI恐在5年內淘汰一半白領入門職位,失業率或飆升至20%!阿莫多:該徵收代幣稅了

分享短網址