Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕

胸が高鳴るAIチェス大会がまもなく開幕します。

研究者たちが論文で連日ベンチマークを更新するのを見るのはもう十分でしょう。今こそモデルを連れ出して、その性能が本当に噂通りの圧倒的なものなのかを試す時です。

太平洋時間8月5日から7日までの3日間、AIチェス大会が開催され、大きな期待が寄せられています。

初日には、8つの最先端AIモデルが対決します。

参加モデルは以下の通りです。

o4-mini(OpenAI)

DeepSeek-R1(DeepSeek)

Kimi K2 Instruct(月之暗面)

o3(OpenAI)

Gemini 2.5 Pro(Google)

Claude Opus 4(Anthropic)

Grok 4(xAI)

Gemini 2.5 Flash(Google)

画像

ライブ配信アドレス:https://www.youtube.com/watch?v=En_NJJsbuus

今回の参加者はAI界のトップモデルばかり(中国の2つのオープンソースモデルも含む)で、対戦する両者の性能は互角です。

主催者はさらに世界トップクラスのチェス専門家を解説者として招いており、その誠意は十分です。

この大会は主にKaggle Game Arenaを基盤としています。これはGoogleが立ち上げた新しい公開ベンチマークプラットフォームで、AIモデルが戦略ゲーム(チェスなどのゲーム)で直接対決し、優劣を競うことができます。

透明性を確保するため、ゲーム実行フレームワークおよびゲーム環境自体はオープンソース化されます。最終ランキングは厳格な総当たり戦形式(all-play-all)で決定され、各モデルペアが多数対戦することで統計結果の信頼性を確保します。

ノーベル賞受賞者であり、Google DeepMindの共同創設者兼CEOであるDemis Hassabis氏は、「ゲームは常にAIの能力を試す重要な試練の場でした(AlphaGoやAlphaZeroの研究も含む)。そして今、このベンチマークプラットフォームが推進できる進歩に計り知れない興奮を感じています。アリーナにさらに多くのゲームや課題を導入し続けることで、AIの能力が急速に向上すると期待しています!」と興奮気味に述べました。

「Kaggle Game Arenaは、AIシステムが互いに対戦する新しいランキングプラットフォームであり、モデルの能力が向上するにつれて、試合の難易度も絶えず上昇するでしょう。」

画像画像

なぜこの大会を企画したのかについて、Googleのブログでは次のように説明しています。現在のAIベンチマークは、現代モデルの発展速度についていくのが困難になっています。これらのテストは特定のタスクにおけるモデルの性能を測定する上では依然として有用ですが、インターネット上で訓練されたモデルの場合、それらが本当に問題を解決しているのか、それとも単に見たことのある答えを繰り返しているだけなのかを判断するのは困難です。一部のベンチマークでモデルが100%に近いスコアを出すにつれて、これらのテストがモデルの性能を区別する上での役割も徐々に低下しています。

したがって、既存のベンチマークを継続的に発展させつつ、研究者たちは新しいモデル評価方法を絶えず模索しています。Game Arenaは、このような背景から生まれました。

大会概要

Game Arenaプラットフォーム上の各ゲームには詳細ページがあり、ユーザーは以下を閲覧できます。

リアルタイムで更新される対戦表;

動的なランキングデータ;

該当ゲームのオープンソース環境コードおよびテストフレームワークの技術文書。

ユーザーはリアルタイムで対戦表を閲覧することもできます。

画像

対戦表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

ゲームにおけるモデルのパフォーマンスは、Kaggle Benchmarksのリーダーボードに表示されます。

大会形式の説明

本大会はシングルエリミネーション方式を採用し、各対戦は4局で構成されます。先に2点を獲得したモデルが進出します(1勝で1点、引き分けで0.5点)。対局が最終的に2-2の引き分けとなった場合、決着戦として1局が追加され、この局では白番のプレイヤーが勝たなければ進出できません。

具体的な日程

8月5日(初日):8つのモデルが4試合を実施(各4局)

8月6日(2日目):勝ち残った4つのモデルが2試合の準決勝を実施

8月7日(決勝日):究極のチャンピオンシップ戦

試合ルール

現在のAI大規模モデルはテキスト表現に長けているため、本大会はテキスト入力方式から開始されます。

以下に実行フレームワークの簡単な説明を示します。

モデルは外部ツールを使用できません。たとえば、Stockfishなどのチェスエンジンを呼び出して最適な手を獲得することはできません。

モデルは現在の局面で合法的な手のリストを知らされません。

モデルが不合法な手を指した場合、主催者は最大3回の再試行機会を与えます。合計4回の試行で合法な手を提出できなかった場合、そのゲームは終了し、当該モデルの負け、相手モデルの勝ちとなります。

一手ごとに60分の時間制限があります。

試合中、観客は各モデルがどのように自分の手を推論し、不合法な手に直面した後の自己修正プロセスを見ることができます。

画像

誰もがすでに試合結果を楽しみにしています。

画像

その他の試合方法については、以下を参照してください:https://www.kaggle.com/game-arena

最初の試合開始まであと14時間です。期待できますね。最終的にどのモデルが勝者になると思いますか?

画像

メインタグ:AIベンチマーク

サブタグ:大規模言語モデルモデル評価Kaggle Game ArenaAIチェス


前の記事:RAG革命!Graph-R1、初のRL駆動グラフ推論エージェント

次の記事:ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする

短いURLをシェア