たった今、GPT-5が「ゲーデルテスト」に初合格!三大数学予想を解明

画像

新智元レポート

編集:桃子

【新智元要約】GPT-5が初めて「ゲーデルテスト」に合格し、三大組み合わせ最適化の予想を次々と解明しました!さらに、独自の判断で既存の予想を覆し、全く新しい有効な解法を提示し、OpenAIの研究科学者をその場で驚かせました。

AIにとって歴史的な瞬間が訪れました!

GPT-5が三大予想の解明に成功し、「ゲーデルテスト」を通過しました。

画像

OpenAIの科学者Sebastien Bubeck氏は、この種の未解決問題は、トップクラスの博士課程の学生でも解決に数日かかることが多いと驚きを表明しました。

従来とは異なり、ハイファ大学とシスコが主導したこの研究は、AIに「未解決の数学予想」という課題に初めて直接立ち向かわせました。

画像

論文URL: https://arxiv.org/pdf/2509.18383

論文の中で、チームは「組み合わせ最適化」分野のテストタスクを5つ設計し、各タスクについて理解を深めるために1〜2本の文献を提供しました。

比較的簡単な3つの問題に対して、GPT-5はほぼ完璧な解法を提示し、その強力な論理的推論能力を証明しました。

画像

驚くべきことに、予想2において、GPT-5は問題を解くだけでなく、研究者たちが期待していたものとは異なる有効な解法を導き出し、元の予想を覆しました。

このブレークスルーは、トップAIが「数学を学ぶ」段階から「真に数学を行う」段階への重要な飛躍を意味します。

AIが数学的発見に実質的な貢献をしており、2030年代に予想される研究パラダイムの深遠な変革を先取りしていることは明らかです。

画像

画像

AIが「ゲーデルテスト」に挑戦

タオ・テレンスの想像を超える

以前、タオ・テレンス氏はOpenAI o1との協力経験を共有し、それを「平凡だが完全に無能ではない大学院生を指導する」ことに例えました。

彼の見解では、LLMは多くのヒントを与えられた後、段階的に解決策を導き出すことはできるものの、鍵となる概念的なアイデアを独立して生成することはできません。

しかし、1、2回の反復とツールの組み合わせによって、AIは「合格レベルの大学院生」の域に達することができるとしていました。

画像

OpenAIとGoogleは共に、自社の最先端LLMが外部ツールなしでIMO(国際数学オリンピック)の金メダルを獲得できると主張しています。

しかし、この挑戦的な問題は、あくまで高校生向けに設計されたものです。

画像

最新の論文では、研究の焦点が異なります:AIにより高度な数学的予想、すなわち「ゲーデルテスト」に取り組ませることです。

これらの予想は、単なる問題解決能力だけでなく、背景知識の統合と革新的な思考を必要とします。

研究者たちは、そのために「組み合わせ数学」のサブ領域である劣モジュラ最大化から問題を選択しました。これらの問題は具体的で明確な動機があり、数学的推論を示す範囲内にコントロールされています。

タオ氏の実験とは異なり、チームは大量のヒントや指導を提供しませんでした。

論文では、彼らは5つの主要な予想を慎重に設計しました。

各問題には最小限の記述と、1〜2本の参考文献のみが与えられました。

難易度は、優秀な学部生や大学院生であれば1日で全ての問題を解決できる程度に設定され、ほとんどの問題に明確な予想と既知の解決経路が存在することを保証しました。

GPT-5のタスクは、限られた入力に基づいて、完全な証明を生成することでした。

これは、数学者が少量のヒントから出発して独立して探求する、現実の研究シナリオをシミュレートしています。

テストにおいて、GPT-5は強みと弱みの両方を示しました。具体的な問題解決能力を見てみましょう。

画像

GPT-5が三大予想を解明

予想1:「単調性+非単調性」の劣モジュラ関数が凸ポリトープ上で最大値を取る

この要件は、「互いに制約しあう2つの利益」を合わせて最大化する、というもののようです:

一部の利益 G は追加されるものが多いほど大きくなります(単調)、別の部分 H は増加後に減少する可能性があります(非単調)。そして、選択は「上限を超えてはならない」凸集合内に収まる必要があります。

画像

GPT-5のアプローチは、連続Frank-Wolfeのアイデアを適用し、ゼロから開始して、毎ステップ「現時点で最もスコアを伸ばせる」方向に少しずつ移動し、「マスク」を使用して境界を超えないように保証しました。

参照論文の「凹関数」の位置を H に置き換え、漸化式を導き出し、最終的に分割保証を得ました——

少なくとも G(o) の約63%を獲得し、それに H(o) の37%を加えたもの(Hも単調であればこれも63%)、さらにステップサイズパラメータ ε に線形に減衰する小さな誤差が加わります。

画像

予想2:p-システム制約下での「双基準」アルゴリズム

この問題は、「値がほぼ最適(1−ε)」であることを許容しつつ、実現可能性をわずかに超えること(緩和係数 g(ε))を許し、目標は、より広範なp-システム制約下で g(ε) をできるだけ小さく抑えることです。

画像

画像

GPT-5は素朴で有効な手順を提案しました。各ラウンドで、現在の解に基づいて、再度「制約内で可能な限り価値の高い」貪欲な選択集合(greedy)を行い、最後にいくつかのラウンドの結果を統合します。

証明の鍵は、各ラウンドで「最適との距離」の差が p/(p+1) の比率で縮小されることです。多数のラウンドを経ることで差は指数関数的に減衰し、したがって ℓ≈ln(1/ε)/ln((p+1)/p) ラウンドを行うだけで、値を 1−ε に近づけることができます。

これは、緩和係数 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉ を意味します。

解法の過程の一部:

画像

予想外なことに、予想2において、GPT-5は異なる近似保証さえ導き出し、検証後に元の予想を覆し、有効な解を提供しました。

予想3:γ-弱DR劣モジュラ+凸制約の最大化

この予想は、「限界効用逓減」の連続版を強度パラメータ γ(γ=1が標準的な状況;γが小さいほど逓減が弱い)で緩和します。

画像

GPT-5は再びFrank-Wolfeを使用しました:「勾配に沿った線形部分問題」を一歩ずつ解き、小さなステップで前進し、滑らかさによって離散化誤差を制御します。

核心となるステップは、古典的な証明における主要な不等式を γ でスケーリングすることであり、これにより有名な 1−1/e の近似比率を、より一般的な 1−e^{−γ} に引き上げ、調整可能な L/(2K) レベルの誤差項(Kは反復回数)を追加しました。

研究者たちから見ると、結論と推論の主要部分は信頼できるものでした。

ただ、GPT-5は実際には必要のない「下方閉包」という条件を余分に仮定し、「ステップサイズの合計=1」という詳細について若干の不一致が見られました。

画像

問題に明確で単一の推論経路がある場合、GPT-5のパフォーマンスは優れており、5つの問題のうち3つでほぼ正しい証明を提示できたことがわかります。

しかし、4や5のように異なる証明を統合する必要がある場合、GPT-5は対応できませんでした。

予想5では、GPT-5は著者たちが想定していたのと同じアルゴリズムを識別しましたが、分析が間違っていました。

彼らが後に再検討したところ、この証明は実行可能でしたが、予想よりも難易度が高かったことが判明しました。初期のモデルと比較して、GPT-5は組み合わせ最適化のような専門分野において数学的能力が著しく向上しており、時折小さな革新も見られます。

画像

これはまさに、現在のGPT-5には「統合的推論」能力が不足していることを示しており、これが主要な弱点です。

画像

著者紹介

Moran Feldman

画像

Moran Feldman氏はハイファ大学コンピュータサイエンス学部の教授です。

以前はイスラエル・オープン大学の教員を務め、ローザンヌ連邦工科大学(EPFL)でOla Svensson教授のもとで博士研究員を務めていました。

Amin Karbasi

画像

Amin Karbasi氏はシスコ財団AI部門責任者であり、Robust Intelligenceの元チーフサイエンティスト、イェール大学教授、Googleエンジニアを歴任しました。

参考文献:

https://arxiv.org/abs/2509.18383

https://x.com/tunedgradient/status/1970955153361850606

メインタグ:人工知能

サブタグ:大規模言語モデルGPT-5組み合わせ最適化数学


前の記事:中国チームが「スパイク大規模モデル」を訓練、推論速度が100倍に向上

次の記事:事前知識と事後検証を組み合わせたLLMは、推論・予測における現実の「逸脱」に対応できるか?

短いURLをシェア