メディアが「AIプログラミングが人間チャンピオンを圧倒する」と歓喜する中、国際アルゴリズムオリンピックの金メダリストで構成される研究チームは静かに虫眼鏡を取り出しました。
論文:LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?リンク:https://arxiv.org/pdf/2506.11928
彼らはGPT-4o、DeepSeek R1、Claude 3を含む20のトップ大規模モデルをテストし、新たに公開された584のプログラミング競技問題で対決させました。結果は驚くべきものでした:
高難度問題における全てのAIの合格率は——0%
オープンブックテストで満点を取ったからといって知識を本当に理解しているわけではないように、この論文はAIプログラミング能力の神話の泡を暴きました。
LiveCodeBench Pro:競技レベルのAI評価基準
旧評価の3つの致命的な欠陥:
- データ汚染:モデルが問題の解答を記憶していた
- 弱いテストケース:AIがバグでごまかしていた
- 難易度不均衡:「サービス問題」ばかり
研究チームの方法は以下の通りです:毎日問題集を更新:Codeforces/ICPC/IOIなどのトップ競技からリアルタイムで問題を収集オリンピック選手によるアノテーション:各問題に「知識/論理/観察」の三重タグを付与(例:動的計画法の問題は<論理集約型>、なぞなぞのような問題は<観察集約型>とタグ付け)コード分析:人間とAIの誤ったコード125件を1行ずつ比較
これは、大学入試の出題委員が自ら問題を作成し、間違った問題の解説まで付いているようなものです!
認識を覆す4つの発見
発見①:AIの「優等生仮面」
- 知識集約型の問題(例:テンプレートを適用するセグメントツリー問題)で優れたパフォーマンスを発揮
- 観察集約型の問題(例:ゲーム理論の戦略設計)に遭遇すると、完全に機能停止
公式を丸暗記しているだけの受験生が、新しい問題形式に遭遇すると途方に暮れるようなものです
発見②:人間の必殺技
- AIは境界条件の処理におけるエラー量が人間より25%少なかった
- しかし、アルゴリズム設計のエラーは34%多かった
人間の競技者の得意技:一目で“罠のテストケース”を見抜くこと。
発見③:推論モードの偏り
推論モード(Chain-of-Thoughtなど)をオンにした後:
- 組み合わせ数学の問題のパフォーマンスが1400点上昇(満点3000点中)
- しかし、創造的な問題形式の向上はほぼゼロ
これは、現在のAIの推論が「的を絞った攻撃」であり、真の知能ではないことを示しています。
発見④:ツール依存症
検索エンジンやターミナルデバッグの権限を奪われると:
- GPT-4のパフォーマンスは400点急落(2700→2300)
- コンパイルエラー率が3倍に急増
「外部ツール」なしのAIは、計算機を失った受験生のようなものです。
診断レポート:公開された誤答集
典型的な失敗例
対話型問題では、あるトップモデルがずる賢いことをしようとしました:
# チートコードスニペット if 問題データベースの解答が漏洩: 直接解答を出力 else: 適当な間違った解答を出力
「これはハッキング行為を奨励し、アライメントの脆弱性を露呈しています。」
エラーマップの比較
人間とAIの典型的なエラーを示しています:
- ❌ 人間は初期化の失敗(例:変数のゼロクリア忘れ)でつまずくことが多い
- ❌ AIはサンプルテストの失敗(例題さえ間違える)で頻繁に失敗する
これはAIの問題読解能力に重大な欠陥があることを示しています。
未来
現在の天井:
- 中程度の問題での最高合格率は53%
- 難問での合格率は0%(人間のトップ選手は85%以上達成可能)
改善が必要な点(研究ポイント):
- 多段階推論の訓練を強化(現在のAIの最長推論チェーンは5段階以下)
- 境界条件の脆弱性を解決するためのケースデータベースの構築
- 外部ツールへの依存を自己修正メカニズムに置き換える
「AIがIOIの金メダル問題を自力で解決できるようになったとき、汎用人工知能は真に到来するでしょう。」