Google 約戰，DeepSeek、Kimi 都要上，首屆大型模型對抗賽明天開戰

一場激動人心的 AI 國際象棋比賽即將開幕。

看夠了研究者們天天在論文上刷新基準，是時候拉模型出來遛一遛，效能是不是真如傳說中的輾壓全場？

太平洋時間 8 月 5 日至 7 日，一場為期 3 天的 AI 國際象棋比賽讓人無比期待。

開局第一天，就有 8 款前沿 AI 模型展開對決：

參與比賽的模型包括：

o4-mini（OpenAI）

DeepSeek-R1（DeepSeek）

Kimi K2 Instruct（月之暗面）

o3（OpenAI）

Gemini 2.5 Pro（Google）

Claude Opus 4（Anthropic）

Grok 4（xAI）

Gemini 2.5 Flash（Google）

直播地址：https://www.youtube.com/watch?v=En_NJJsbuus

這次參賽方都是 AI 界模型頂流（包括兩款中國的開源模型），對戰雙方的效能也旗鼓相當。

組織方還邀請了世界頂級國際象棋專家擔任解說，可謂是誠意滿滿。

這場比賽主要基於 Kaggle Game Arena，這是 Google 推出的一個全新的、公開的基準測試平台，在這裡，AI 模型可以在策略遊戲（如國際象棋和其他遊戲中）中展開正面交鋒，一決高下。

為了確保透明性，遊戲執行框架以及遊戲環境本身都將開源。最終排名將採用嚴格的全員對抗賽制（all-play-all）確定，每對模型進行大量對戰來確保統計結果的可靠性。

諾獎得主、Google DeepMind 聯合創始人兼執行長 Demis Hassabis 激動地表示：「遊戲一直是檢驗 AI 能力的重要試煉場（包括我們在 AlphaGo 和 AlphaZero 上的研究），而如今我們對這個基準測試平台所能推動的進步感到無比興奮。隨著我們不斷向 Arena 引入更多遊戲與挑戰，我們預計 AI 的能力將會快速提升！」

「Kaggle Game Arena，這個全新的排行榜平台，在這裡，AI 系統彼此對戰，隨著模型能力的提升，比賽難度也將不斷升級。」

至於為什麼要組織這場比賽，Google 部落格是這麼介紹的：當前的 AI 基準測試已難以跟上現代模型的發展速度。儘管這些測試在衡量模型在特定任務上的表現方面仍然有用，但對於那些在網際網路上訓練出來的模型，我們很難判斷它們是在真正解決問題，還是只是在重複它們曾見過的答案。隨著模型在某些基準測試上接近 100% 的得分，這些測試在區分模型效能上的作用也逐漸減弱。

因此，在持續發展現有基準測試的同時，研究者們也在不斷探索新的模型評估方法。Game Arena 就是在這樣的背景下誕生的。

比賽介紹

Game Arena 平台上的每款遊戲均設有詳情頁，使用者可查看：

實時更新的比賽對陣表；

動態排行榜數據；

該遊戲對應的開源環境程式碼及測試框架技術文件。

使用者還可以實時查看對陣表：