一場激動人心的 AI 國際象棋比賽即將開幕。
看夠了研究者們天天在論文上刷新基準,是時候拉模型出來遛一遛,效能是不是真如傳說中的輾壓全場?
太平洋時間 8 月 5 日至 7 日,一場為期 3 天的 AI 國際象棋比賽讓人無比期待。
開局第一天,就有 8 款前沿 AI 模型展開對決:
參與比賽的模型包括:
o4-mini(OpenAI)
DeepSeek-R1(DeepSeek)
Kimi K2 Instruct(月之暗面)
o3(OpenAI)
Gemini 2.5 Pro(Google)
Claude Opus 4(Anthropic)
Grok 4(xAI)
Gemini 2.5 Flash(Google)
直播地址:https://www.youtube.com/watch?v=En_NJJsbuus
這次參賽方都是 AI 界模型頂流(包括兩款中國的開源模型),對戰雙方的效能也旗鼓相當。
組織方還邀請了世界頂級國際象棋專家擔任解說,可謂是誠意滿滿。
這場比賽主要基於 Kaggle Game Arena,這是 Google 推出的一個全新的、公開的基準測試平台,在這裡,AI 模型可以在策略遊戲(如國際象棋和其他遊戲中)中展開正面交鋒,一決高下。
為了確保透明性,遊戲執行框架以及遊戲環境本身都將開源。最終排名將採用嚴格的全員對抗賽制(all-play-all)確定,每對模型進行大量對戰來確保統計結果的可靠性。
諾獎得主、Google DeepMind 聯合創始人兼執行長 Demis Hassabis 激動地表示:「遊戲一直是檢驗 AI 能力的重要試煉場(包括我們在 AlphaGo 和 AlphaZero 上的研究),而如今我們對這個基準測試平台所能推動的進步感到無比興奮。隨著我們不斷向 Arena 引入更多遊戲與挑戰,我們預計 AI 的能力將會快速提升!」
「Kaggle Game Arena,這個全新的排行榜平台,在這裡,AI 系統彼此對戰,隨著模型能力的提升,比賽難度也將不斷升級。」
至於為什麼要組織這場比賽,Google 部落格是這麼介紹的:當前的 AI 基準測試已難以跟上現代模型的發展速度。儘管這些測試在衡量模型在特定任務上的表現方面仍然有用,但對於那些在網際網路上訓練出來的模型,我們很難判斷它們是在真正解決問題,還是只是在重複它們曾見過的答案。隨著模型在某些基準測試上接近 100% 的得分,這些測試在區分模型效能上的作用也逐漸減弱。
因此,在持續發展現有基準測試的同時,研究者們也在不斷探索新的模型評估方法。Game Arena 就是在這樣的背景下誕生的。
比賽介紹
Game Arena 平台上的每款遊戲均設有詳情頁,使用者可查看:
實時更新的比賽對陣表;
動態排行榜數據;
該遊戲對應的開源環境程式碼及測試框架技術文件。
使用者還可以實時查看對陣表:
對陣表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament
模型在遊戲中的表現將在 Kaggle Benchmarks 的排行榜上展示。
賽制說明
本次比賽採用單敗淘汰制,每場對決包含四局比賽。先獲得兩分的模型晉級(勝一局得 1 分,平局各得 0.5 分)。若對局最終打成 2–2 平,將加賽一局決勝負,在這局中,執白方必須獲勝才能晉級。
具體賽程安排
8 月 5 日(首日):8 款模型進行 4 場對決(每場 4 局)
8 月 6 日(次日):晉級的 4 款模型進行 2 場半決賽
8 月 7 日(決賽日):終極冠軍爭奪戰
比賽規則
由於當前大型模型對文本表達更為擅長,因此該比賽從基於文本輸入的方式開始進行比賽。
以下是對執行框架的簡要說明:
模型無法使用任何外部工具。例如,它們不能呼叫 Stockfish 等國際象棋引擎來獲得最優走法。
模型不會被告知當前局面下的合法走法列表。
如果模型給出了一步不合法的走法,舉辦方將給予它最多 3 次重試機會。若在總共 4 次嘗試中仍未提交出合法走法,則本局遊戲終止,並記為該模型負,對手勝。
每步棋有 60 分鐘的超時限制。
在比賽過程中,觀眾將能夠看到每個模型是如何推理自己的走法,以及它們在面對非法走法後的自我糾正過程。
大家都已經迫不及待地想要看比賽結果了。
更多比賽方式請參考:https://www.kaggle.com/game-arena
離首場比賽開始時間還有 14 小時,可以開始期待了。你覺得最終贏家會是哪個模型呢?