クレシー(凹非寺より)量子位 | 公式アカウント QbitAI
倉庫番、テトリス……これらの人類が愛する懐かしいレトロゲームが、大規模モデルの新たなベンチマークとなりました。
o3-proもこれらの2つのゲームに挑戦し、どちらも素晴らしいパフォーマンスを見せ、ベンチマークの上限を直接突破しました。
具体的に言うと、ベンチマークの倉庫番はo3-proによって第6ステージまでしかクリアされていませんでしたが、o3-proはこれを突破しました。テトリスは強制終了された結果であり、実際にはo3-proは止まることができませんでした。
以前のSOTAであるo3と比較しても、o3-proの成績は直接2倍になっています。
一部のネットユーザーは、大規模モデルの競技場よりも、この基準の方が大規模モデルをテストするのに適していると直接述べています。
クラシックミニゲームが新たなベンチマークに
o3-proが挑戦したこれらの2つのゲームは、Lmgameというベンチマークから派生しています。その名の通り、大規模モデルにゲームをプレイさせるものです。
o3-proが挑戦した倉庫番は1989年のバージョンを改変したもので、o3-pro以前は、ゲーム終了前に目標位置に押された箱の総数が評価指標でした。
しかし、今回o3-proはすべてのステージをクリアしてしまい、「100点満点だったから100点を取った」というような印象を与えました。
しかし、心配は無用です。テスト基準は動的に更新され、GitHubリポジトリで半月前に更新されたゲームマップにはまだ4ステージしかありませんが、オリジナル版のゲームには50以上のステージがあります。
o3-proの挑戦前は、o3が最高のパフォーマンスを示し、o4-miniがそれに続き、その後にDeepSeek-R1の最新バージョン(0528)が続きました。
テトリスのスコア計算方法は、配置されたブロックの数に、クリアした行数の10倍を加え、ゲーム終了まで続きます。
o3-pro以前は、最高のパフォーマンスを示したモデルもo3でしたが、R1とo4-miniのランキングは倉庫番と比較して入れ替わりました。
しかし、時間的にはo3-proの操作は非常に時間がかかり、一歩進むごとに数分を要しました。
また、他のネットユーザーは、大規模モデルに直接挑戦させるのではなく、プログラムを作成させた方が良い結果が得られるかもしれないと考えています。
o3-proがプレイした倉庫番とテトリスの他に、Lmgameにはさらに4つのゲームが含まれています。それは、2048、キャンディークラッシュ、スーパーマリオブラザーズ、そして逆転裁判です。
テストプロセスは、反復的なインタラクションループモードで行われます。ゲーム環境は大規模モデルにゲームの状態を継続的に提供し、モデルはその状態に基づいてアクションを生成します。これらのアクションはその後ゲーム環境で実行され、実行結果に基づいて報酬が計算され、次の意思決定のためにゲームの状態が更新されます。
同時に、知覚、記憶、推論などのモジュールを含むエージェントフレームワークが補助ツールとして導入されました。評価結果の安定性と比較可能性を確保するため、このモードではプロンプトの標準化も実施し、プロンプトの変動によるパフォーマンスの揺れを軽減しています。
ゲームの特性とルールに基づいて、各ゲームの評価方法も異なります。
スーパーマリオブラザーズ:マリオがすべてのステージで蓄積した水平移動距離(ゲーム単位で計算)が測定基準です。3つのライフをすべて失うか、最終ステージをクリアするまで記録されます。
2048:評価指標は、すべての結合されたタイルの値の合計です。ボードが停滞するまで(10ターン連続で結合またはボードの変化がない)、最終スコアは2を底とする対数を取り、10を掛けて算出されます。
キャンディークラッシュ:評価基準は、固定された50ターン以内に消去されたキャンディの総数です。
逆転裁判:すべての事件ステージにおける正しい行動(証拠提出、会話選択など)の総カウントで測定されます。5回の誤った決定(すなわちライフが尽きる)を犯すまで記録されます。
ただし、これらのゲームパフォーマンスの測定基準には、時間の要素は考慮されていません。
このベンチマークはオープンソースですので、興味があればご自身でダウンロードしてモデルをテストすることも可能です。
また、ネットユーザーからはポケモンの結果を見たいというコメントもあり、チームはすぐに手配すると表明しました。
ポケモンといえば、Geminiはウェブ全体でライブ配信を行いながら挑戦を続けており、今年5月初旬には「ポケモン ブルー」のクリアに成功しました。
当時、GoogleのCEOであるピチャイ氏がすぐに興奮して公式発表を行い、クリアの瞬間の貴重な映像も公開しました。
大規模モデル競技場諮問タスクフォースの成果
このプロジェクトは、カリフォルニア大学サンディエゴ校(UCSD)のHao AI Labによるもので、UCSDの機械学習システムラボとNLPラボに所属し、Halıcıoğluデータサイエンス研究所の助教授である張昊氏が責任者を務めています。
張昊氏は、華南理工大学、上海交通大学、カーネギーメロン大学でそれぞれ学士、修士、博士号を取得し、その後UCバークレー校で博士研究員として研究に従事した後、UCSDに加わりました。
さらに、張昊氏はLMSYSの設立にも参加し、大規模モデル競技場の顧問を務めています。
LMSYSは非営利団体であり、大規模モデル競技場や、SGLang、vLLMといった有名なモデルフレームワークはすべてLMSYSが開発したものです。
Hao AI Labに戻ると、この研究室は複数のオープンソースプロジェクトを立ち上げており、その中でもGitHubのスター数が最も多いのは動画生成加速フレームワークであるFastVideoで、1.5kのスターを獲得しています。
Hao AI LabはGoogleとNVIDIAからの資金援助も受けており、今年4月にはNVIDIAが同研究室にDGX B200を寄贈しました。
参考リンク:https://x.com/haoailab/status/1933614723507106226 プロジェクトリポジトリ:https://github.com/lmgame-org/GamingAgent ランキング:https://huggingface.co/spaces/lmgame/lmgame_bench 論文:https://arxiv.org/abs/2505.15146
— 完 —
📪 量子位AIテーマ企画が募集中!特集「365業種向けAI導入ソリューション、AIアプリケーション1001選」にご参加いただくか、あなたが探しているAI製品や発見したAIの新たな動向を私たちと共有してください。
💬 量子位AI毎日交流グループへのご参加も大歓迎です。一緒にAIについて語り合いましょう!
ワンクリックでフォロー 👇 スターを点灯
テクノロジー最前線の進捗を毎日お届け
ワンクリックで3連アクション いいね! シェア ハート
コメント欄にあなたの意見を残してください!