o3-pro成功挑戰《推箱子》,人類懷舊小遊戲成為大型模型新基準

克雷西 發自 凹非寺 量子位 | QbitAI 公眾號

《推箱子》、《俄羅斯方塊》……這些人類的經典懷舊小遊戲,也成了大型模型的新基準測試項目。

o3-pro剛剛也挑戰了這兩款遊戲,而且表現還不錯,直接突破了基準測試的上限。

圖片

具體來說,基準測試中的《推箱子》原本只做到被o3-pro突破的第六關;《俄羅斯方塊》則是強制終止的結果,實際上o3-pro根本停不下來。

如果與先前最先進的o3相比,o3-pro的成績也是直接翻倍。

圖片

還有網友直言,比起大型模型競技場,這套標準才更適合做測試大型模型的基準。

圖片

經典小遊戲成為新基準測試

o3-pro挑戰的這兩個遊戲,出自一套名為Lmgame的基準測試,顧名思義就是讓大型模型玩遊戲。

o3-pro挑戰的《推箱子》是從1989年的版本修改而來,在o3-pro之前,評估指標是遊戲結束之前推動到目標位置的箱子總數。

不過這次o3-pro直接把所有關卡都破關了,頗有種「得一百分是因為卷面只有一百分」的感覺。

但也不必擔心,測試基準會動態更新,GitHub儲存庫中半個月前更新的遊戲地圖還只有四關,原版遊戲更是有足足50多個關卡。

而在o3-pro挑戰之前,表現最好的是o3,o4-mini緊隨其後,再然後是DeepSeek-R1的最新版本(0528)。

圖片

《俄羅斯方塊》的得分計算方式則是將放置的方塊數量與清除行數的10倍相加,直到遊戲結束。

在o3-pro之前,表現最好的模型同樣是o3,但後面R1和o4-mini的排名和《推箱子》相比交換了位置。

圖片

不過在時間上,o3-pro的操作相當耗費時間,每走一步都要花上好幾分鐘。

圖片

另外還有網友認為,如果讓大型模型編寫程式而不是直接挑戰,結果可能會更好。

圖片

除了o3-pro玩的《推箱子》和《俄羅斯方塊》,Lmgame中還包括四款遊戲——《2048》、《糖果傳奇》、《超級瑪利歐兄弟》和《逆轉裁判》。

測試過程中通過一種疊代互動循環模式進行,遊戲環境會持續地向大型模型提供遊戲狀態,模型根據狀態生成動作,這些動作隨後在遊戲環境中被執行,並根據執行結果計算獎勵,接著遊戲狀態會更新以進行下一輪決策。

圖片

同時還引入了智能體框架作為輔助工具,其中包含了感知、記憶、推理等模組;為了確保評估結果的穩定性和可比性,該模式還實施了提示標準化,以減少提示詞帶來的性能波動。

圖片

根據遊戲的特性和規則,具體到每個遊戲的評價方式也有所區別:

《超級瑪利歐兄弟》:衡量標準是瑪利歐在所有關卡中累積的水平移動距離(以遊戲單位計算),直到失去所有三條生命或完成最終關卡為止。

《2048》:評估指標是所有合併方塊值的總和,記錄直到棋盤停滯(連續十回合沒有合併或棋盤變化)為止,取以2為底的對數後乘以10即為最終分數。

《糖果傳奇》:評價標準是在固定的 50 回合內消除的糖果總數。

《逆轉裁判》:透過所有案件關卡中正確動作(例如提交證據、選擇對話)的總計數來衡量,直到犯下五次錯誤決策(即生命值用盡)為止。

不過這些遊戲表現的衡量標準當中,都沒有將時間作為考量因素。

另外這套基準測試是開源的,有興趣的話也可以自己下載下來對模型進行測試。

圖片

還有網友留言說想看《寶可夢》的結果,團隊表示馬上安排。

圖片

說到《寶可夢》,Gemini一直在全網直播當中進行挑戰,並且在今年5月初成功破關了《寶可夢·藍》。

當時Google執行長皮柴哥第一時間興奮官宣,還放出了破關時刻的珍貴影像:

圖片

大型模型競技場顧問課題組出品

這個專案來自加州大學聖地牙哥分校(UCSD)的Hao AI Lab,附屬於UCSD的機器學習系統實驗室和NLP實驗室,負責人是Halıcıoğlu資料科學研究所的助理教授張昊。

張昊本碩博分別就讀於華南理工大學、上海交通大學和卡內基美隆大學,之後到加州大學柏克萊分校從事博士後研究,結束後加入UCSD。

圖片

此外張昊也參與過創立LMSYS,並擔任大型模型競技場顧問。

LMSYS是一個非營利組織,大型模型競技場和知名模型框架SGLang、vLLM都是由LMSYS研發的。

說回Hao AI Lab,該實驗室創立了多個開源專案,其中GitHub星號數最多的是視訊生成加速框架FastVideo,已獲得1.5k星。

圖片

Hao AI Lab還接受Google和NVIDIA的資助,今年4月NVIDIA給該實驗室捐贈了一台DGX B200。

圖片

參考連結:https://x.com/haoailab/status/1933614723507106226 專案儲存庫:https://github.com/lmgame-org/GamingAgent 排行榜:https://huggingface.co/spaces/lmgame/lmgame_bench 論文:https://arxiv.org/abs/2505.15146

— 完 —

📪 量子位AI主題企劃正在徵集中!歡迎參與專題365行AI落地解決方案,一千零一個AI應用,或與我們分享您在尋找的AI產品,或發現的AI新動向。

💬 也歡迎您加入量子位每日AI交流群,一起來暢聊AI吧~

圖片

一鍵關注 👇 點亮星標

科技前沿進展每日看

一鍵三連 按讚 轉發 愛心

歡迎在留言區留下您的想法!

主標籤:大型語言模型

次標籤:人工智慧遊戲AI懷舊遊戲基準測試


上一篇:4B Qwen3 逆襲 671B DeepSeek!字節跳動 DAPO 微調方法真有這麼猛嗎?

下一篇:僅10% KV 快取實現無損數學推理!開源方法解決推論大型模型「記憶過載」難題

分享短網址