文楽 発 オウヒジ 量子位 | 公式アカウント QbitAI
大規模モデルは数独が苦手、全体の正答率はわずか15%?!
史上初の「AI科学者」が10本の完全な学術論文を携えて登場した後、Transformerの著者であるLlion Jonesが彼のスタートアップSakana AIと共に再び動き出しました。
今回、Sakana AIはAIモデルの数独問題解決能力に関するランキングを発表しました。
この問題集は、同社が発表した新しいベンチマーク「Sudoku-Bench」で、シンプルな4x4から複雑な9x9の現代数独問題まで含まれており、大規模モデルの創造的推論能力を試すことを目的としています。
ランキングによると、大規模モデルの全体的な正答率はわずか15%に過ぎず、9x9の現代数独においては、高性能モデルであるo3 Mini Highですら正答率は2.9%でした。
Sudoku-Benchプロジェクトは、2025年のNVIDIA GTC開発者会議で発表されました。
NVIDIAのCEOジェンスン・フアン氏はこれについて次のようにコメントしました。
「数独のようなパズルは、AIの推論能力向上に役立つだろう。」
Sudoku-Bench 新しいベンチマークテスト
Sudoku-Benchは、Sakana AIが今年3月に発表した、異なる難易度の数独パズルからなるベンチマークテストで、人工知能の多層的かつ創造的な推論能力を測定するために使用されます。
1. 既存の問題:大規模モデルの「記憶依存症」
現在、ほとんどの推論ベンチマークには欠陥があります。大規模モデルは、真に論理的推論能力を適用するのではなく、標準的な答えや固定パターンを記憶することでタスクを完了しがちです。
訓練データに「類似」する問題に遭遇した場合、モデルは論理的推論を通じて答えを導き出すのではなく、記憶された解決策を直接適用します。
新しいルールや未見のパターンに対しては、直接一致する記憶テンプレートがないため、モデルは効果的に対応できないことが多いです。
従来の数独ゲームは大規模モデルにとってすでに「簡単すぎ」る可能性があり、ルーティンを覚えているだけで、新しい問題を創造的に解決する方法を学んでいないのかもしれません。
2. 解決策:Sudoku-Benchは「変種数独」で大規模モデルを打ち負かす
近年、ユニークなルールを持つ様々な派生パズルが登場しています。
これらの「変種数独」パズルは、多段階で創造的な推論スキルを必要としますが、正解は一つしかありません。記憶によって解決することはできず、多段階の論理的推論を通じて「突破口」を見つける必要があります。
これらの特性により、「変種数独」はAIの推論能力をテストするのに理想的な選択肢となります。
以下は「変種数独」の例です。元のルールに従うだけでなく、色付きの線に沿って配置された数字も追加のルールに従う必要があります。
Sudoku-Benchベンチマークには、従来の数独と現代数独(変種数独)の問題が含まれており、難易度が分けられています。現在のモデルで解決できる簡単な問題から、最先端の推論モデルですら対応できない極めて難しい問題まであります。
Sudoku-Benchには、Nikoli(日本の有名な数独会社で、数独という名前の由来)が提供する100問の手作り数独問題も含まれています。
3. 大規模モデルの「惨敗」:ベースライン実験結果
今年3月にこのベンチマークが発表された後、研究者たちはGemini 2.5 Pro、GPT-4.1、Claude 3.7など、最先端の大規模AIモデル複数でテストを実施しました。
モデルに公平な機会を与えるため、チームは部分的に完成したパズルを提供し、それらがパズルを完成させる能力を評価しました。
結果は、一部のモデルはこの補助を受けてかなり良好なパフォーマンスを示しましたが、重要な結果は最後の2つの列にあります。
最先端のモデルでさえ、平均して1つの正しい数字も配置できず、OpenAIの最新推論モデルChatGPT o3が、ベンチマーク内のすべてのパズルを解決できた唯一のモデルでした。
最新のランキングによると:
ツール補助なしの場合、100問のパズルにおける全モデルの全体正答率は15%未満でした。
小さなグリッド(4x4)ではやや良好なパフォーマンス(40%〜73%の正答率)を示しましたが、9x9グリッドではほぼ全敗で、正答率は0%に近く、高性能モデル「o3 Mini High」ですら正答率はわずか2.9%でした。
モデルが頻繁に犯すエラーには、誤った解答、解法の放棄、規則矛盾の誤判定などがあります。特に「突破口」が必要なパズルに直面した場合、無計画に推測するだけで、人間のように論理的な連鎖を通じて検索範囲を絞り込むことができませんでした。
テストチームは、各パズルにおけるモデルのパフォーマンス詳細をリストアップしています。興味のある方は記事末尾のリンクをご覧ください〜
Sakana AIについて
Sakana AIは、元Googleの研究者であるLlion Jones(Transformerの著者の一人)とDavid Haによって2023年7月に東京で設立されました。主にテキストと画像を生成するAIの基盤モデルの研究を行っています。
以前、同社は「AI科学者」と「AIレビューアー」をオープンソース化しました。前者は登場するやいなや、拡散モデルの方向性、Transformerと強化学習などを含む10本の完全な学術論文を独自に完成させ、大きな話題を呼びました。
後者はAIが書いた論文をレビューし、改善意見を提供することで、「自分の矛で自分の盾を攻める」というコンセプトを掲げています。
同社はまた、「連続思考マシン(CTM)」と呼ばれる新しいタイプのAIモデルも発表しました。これは、人間のように「段階的に」思考し、世界の内部モデルを学習することで、単純なパターン認識を超越し、迷路などの複雑な問題を段階的に解決する能力を獲得しました。
Sakana AIはまた、Cracking The Cryptic(YouTubeで最大のパズル解説チャンネルの一つ)と提携しています。Cracking The Crypticは毎日、世界最高の数独パズルの一部について論理的な解決策をデモンストレーションしています。
Sakana AIは、これらの動画のテキスト記録と、解答プロセス中に取られた行動データを入手しました。これらのデータは、AI推論モデルの訓練に理想的なデータとして機能し、Sudoku-Benchと共に公開されます。
著名な数独出題者Marty Searsは、Sakana AIのために「パリティフィッシュ」という名の数独ゲームを特別に作成しました。Sakana AIの赤いロゴ線に沿って隣接する数字は、必ず偶数と奇数が一つずつ含まれていなければなりません。
興味のある方は試してみてください(解答プロセスは記事末尾に添付されています)〜
技術報告:https://arxiv.org/abs/2505.16135ランキング:https://pub.sakana.ai/sudoku/Github:https://github.com/SakanaAI/Sudoku-Benchパリティフィッシュ問題:https://sudokupad.app/wsj7iunsg6解答プロセス:https://www.youtube.com/watch?v=JdHSSNKuIzU参考文献:[1]https://x.com/SakanaAILabs/status/1926905826465161629[2]https://sakana.ai/sudoku-bench/
— 完 —
📪 量子位AIテーマ企画、現在募集中です!365業種AI導入ソリューション、1001のAIアプリケーションなどの特集にご参加いただくか、お探しのAI製品や発見したAIの新しい動向を私たちと共有してください。
💬 量子位AI毎日交流グループへのご参加も歓迎です。AIについて一緒に語り合いましょう〜
ワンクリックでフォロー 👇 スターを点灯
最先端テクノロジーの進捗を毎日お届け
ワンクリックで「いいね」「転送」「ハート」
コメント欄にあなたの意見を残してください!