Google 約戰,DeepSeek、Kimi 都要上,首屆大型模型對抗賽明天開戰

一場激動人心的 AI 國際象棋比賽即將開幕。

看夠了研究者們天天在論文上刷新基準,是時候拉模型出來遛一遛,效能是不是真如傳說中的輾壓全場?

太平洋時間 8 月 5 日至 7 日,一場為期 3 天的 AI 國際象棋比賽讓人無比期待。

開局第一天,就有 8 款前沿 AI 模型展開對決:

參與比賽的模型包括:

o4-mini(OpenAI)

DeepSeek-R1(DeepSeek)

Kimi K2 Instruct(月之暗面)

o3(OpenAI)

Gemini 2.5 Pro(Google)

Claude Opus 4(Anthropic)

Grok 4(xAI)

Gemini 2.5 Flash(Google)

圖片

直播地址:https://www.youtube.com/watch?v=En_NJJsbuus

這次參賽方都是 AI 界模型頂流(包括兩款中國的開源模型),對戰雙方的效能也旗鼓相當。

組織方還邀請了世界頂級國際象棋專家擔任解說,可謂是誠意滿滿。

這場比賽主要基於 Kaggle Game Arena,這是 Google 推出的一個全新的、公開的基準測試平台,在這裡,AI 模型可以在策略遊戲(如國際象棋和其他遊戲中)中展開正面交鋒,一決高下。

為了確保透明性,遊戲執行框架以及遊戲環境本身都將開源。最終排名將採用嚴格的全員對抗賽制(all-play-all)確定,每對模型進行大量對戰來確保統計結果的可靠性。

諾獎得主、Google DeepMind 聯合創始人兼執行長 Demis Hassabis 激動地表示:「遊戲一直是檢驗 AI 能力的重要試煉場(包括我們在 AlphaGo 和 AlphaZero 上的研究),而如今我們對這個基準測試平台所能推動的進步感到無比興奮。隨著我們不斷向 Arena 引入更多遊戲與挑戰,我們預計 AI 的能力將會快速提升!」

「Kaggle Game Arena,這個全新的排行榜平台,在這裡,AI 系統彼此對戰,隨著模型能力的提升,比賽難度也將不斷升級。」

圖片圖片

至於為什麼要組織這場比賽,Google 部落格是這麼介紹的:當前的 AI 基準測試已難以跟上現代模型的發展速度。儘管這些測試在衡量模型在特定任務上的表現方面仍然有用,但對於那些在網際網路上訓練出來的模型,我們很難判斷它們是在真正解決問題,還是只是在重複它們曾見過的答案。隨著模型在某些基準測試上接近 100% 的得分,這些測試在區分模型效能上的作用也逐漸減弱。

因此,在持續發展現有基準測試的同時,研究者們也在不斷探索新的模型評估方法。Game Arena 就是在這樣的背景下誕生的。

比賽介紹

Game Arena 平台上的每款遊戲均設有詳情頁,使用者可查看:

實時更新的比賽對陣表;

動態排行榜數據;

該遊戲對應的開源環境程式碼及測試框架技術文件。

使用者還可以實時查看對陣表:

圖片

對陣表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在遊戲中的表現將在 Kaggle Benchmarks 的排行榜上展示。

賽制說明

本次比賽採用單敗淘汰制,每場對決包含四局比賽。先獲得兩分的模型晉級(勝一局得 1 分,平局各得 0.5 分)。若對局最終打成 2–2 平,將加賽一局決勝負,在這局中,執白方必須獲勝才能晉級。

具體賽程安排

8 月 5 日(首日):8 款模型進行 4 場對決(每場 4 局)

8 月 6 日(次日):晉級的 4 款模型進行 2 場半決賽

8 月 7 日(決賽日):終極冠軍爭奪戰

比賽規則

由於當前大型模型對文本表達更為擅長,因此該比賽從基於文本輸入的方式開始進行比賽。

以下是對執行框架的簡要說明:

模型無法使用任何外部工具。例如,它們不能呼叫 Stockfish 等國際象棋引擎來獲得最優走法。

模型不會被告知當前局面下的合法走法列表。

如果模型給出了一步不合法的走法,舉辦方將給予它最多 3 次重試機會。若在總共 4 次嘗試中仍未提交出合法走法,則本局遊戲終止,並記為該模型負,對手勝。

每步棋有 60 分鐘的超時限制。

在比賽過程中,觀眾將能夠看到每個模型是如何推理自己的走法,以及它們在面對非法走法後的自我糾正過程。

圖片

大家都已經迫不及待地想要看比賽結果了。

圖片

更多比賽方式請參考:https://www.kaggle.com/game-arena

離首場比賽開始時間還有 14 小時,可以開始期待了。你覺得最終贏家會是哪個模型呢?

圖片

主標籤:AI效能評測

次標籤:大型語言模型模型評估KaggleAI國際象棋


上一篇:RAG 革新!Graph-R1:首個由強化學習驅動的圖推理代理

下一篇:ReaGAN:讓圖中每個節點都成為智能推理專家

分享短網址