新智元レポート
編集:Aeneas 好困
【新智元概要】最近、世界トップレベルの数学者30名がUCバークレーに集結し、OpenAIのo4-miniに対し「包囲討伐」を展開。2日間にわたり教授級の難問を次々と出題した結果、その場で一斉に「精神的に打ち破られた」と表現される事態に!「このAIは、確かに数学の天才レベルに近い」とある者は直言。かつてAGIは遥か遠いと思われていたが、今やあと一歩のところまで来ているようだ……
AIは数学において、一体どれほど強力なのか?
つい最近、世界的に著名な数学者30名がUCバークレーに集まり、ある秘密の数学会議でAIを超えようと試みました。
2日間にわたり教授レベルの難問をこのAIに浴びせかけた結果、研究者たちは驚愕しました。AIが世界の最も難しい問題の一部を解決できたのです!
その中のある数学者はその場で感服し、これらのモデルは数学の天才のレベルに近づいていると直言しました。
トップ数学者たちは、服従した
5月中旬のある週末、秘密の数学サミットがひっそりと開催されました。
世界中のトップ数学者30名が、専門家によって特別に設計された難問に解答する必要がある推論チャットボットと対決しました。
結果は冒頭で述べた通り、数学者たちは完全に感服しました。
今回の参加ロボットはOpenAIのo4-miniで、既に非常に複雑な推論を行うことができます。
もちろん、この能力を持つモデルは世界で唯一ではなく、GoogleのGemini 2.5 Flashも同様の能力を持っています。
なぜo4-miniは数学の問題を解くのがこれほど強いのでしょうか?
それは、特殊なデータセットに基づいて訓練され、より強力なRLHF(強化学習からの人間フィードバック)を獲得しているからです。この方法は、従来のLLMよりも複雑な数学の問題に深く掘り下げて取り組むことを可能にしました。
Epoch AI、根本を問い詰める
o4-miniが訓練された後、OpenAIは常にその問題解決能力に強い関心を示してきました。
o4-miniの進捗を追跡するため、OpenAIは以前、非営利団体Epoch AIに依頼し、解法が未公開の数学問題300問を設計させ、大規模言語モデルを専門に試しました。
これらの問題の注目すべき点は、解法がまだ世に出ていないため、訓練データの中に存在し得ることは絶対にないということです。
果たして、Epoch AIが訓練データとは全く異なるこれらの問題を用いていくつかの推論モデルをテストしたところ、それらはほぼ全て失敗しました。
最も性能が良かったモデルでさえ、正答率は2%未満でした。
LLMは数学が本当に苦手なのか? Epoch AIは探求を諦めませんでした。
2024年9月、Epoch AIは数学の博士号を取得したばかりのElliot Glazerを雇い、FrontierMathと名付けられた全く新しいベンチマークテストプロジェクトに参加させました。
このプロジェクトの目的は、異なる難易度の新しい数学問題を集めることでした。その中で、T1~T3はそれぞれ学部生、大学院生、研究レベルの課題をカバーしています。
結果、o4-miniは目覚ましい進歩を見せました。
2025年2月までに、Glazerはo4-miniが約20%の問題を解けるようになったことを発見しました!
そして今年5月には、Epoch AIはさらにコンテストを開催し、約40名の数学エリートを8つのグループに分け、各グループを学科の専門家と優秀な学部生で構成しました。
彼らはAIと共にテレンス・タオらが提唱するFrontierMathベンチマークで、最終対決に挑みました。
試合は全23問、制限時間4.5時間で、実験の結果は以下の通りです:
o4-mini-mediumは人間の平均レベル(19%)を凌駕し、約22%の問題を解決しました。
ただし、o4-miniが解決できた問題は、少なくとも1つの数学者チームによって解読されました。これにより、人間チーム全体では約35%の問題を解決しました。
結果として、o4-miniは合計6チームを打ち破り、数学分野で驚異的な潜在能力を示しました。
T4レベルテスト、開始
その後、彼は第4段階のテストに着手しました。今回は、プロの数学者にとっても極めて困難な問題100問を見つけることです。
世界を見渡しても、このような問題を出題できる人物はごくわずかで、ましてや解答を出すことなど考えられません。
そのため、彼は世界トップクラスの数学者たちに、秘密保持契約への署名、さらには暗号化された通信アプリSignalのみでの連絡を求めました。
なぜなら、彼は電子メールのような従来の連絡手段を使用した場合、LLMにスキャンされ、意図せず訓練データとなり、テストデータセット全体が汚染されることを懸念したからです。
採用された方法が極めて厳格であったため、当初はプロジェクトの進捗が非常に遅いものでした。
進捗を早めるため、GlazerはEpoch AIに5月17日(土)と18日(日)の2日間、このオフライン会議の開催を促しました。
会議では、数学者たちが最後の最高レベルの数学問題を確定させることになりました。
知恵を絞り、AIを倒すことを誓う
バージニア大学の数学者で、会議のリーダー兼審査員であるケン・オノは、参加者30名を6人ずつのグループに分けました。
2日間の会議中、これらのトップ学者たちは、自分は解けるがAI推論ロボットを困惑させるような問題を誰が設計できるかを競い合いました。
このプロジェクトの報酬も非常に魅力的でした。
o4-miniが1問解けないごとに、その問題の出題者には7500ドルの報酬が与えられました。
しかし、誰もが予期せぬ結果となりました。o4-miniが数学者たちに致命的な一撃を与えたのです!
土曜の深夜、会場の数学者たちは皆、ひどく挫折感を覚えました。o4-miniの予想外の数学的才能が、チーム全体の努力を水の泡にしてしまったのです。
オノは、自身の専門分野の専門家が認める数論の未解決問題を1つ出題しました。これは博士課程の学生レベルに達する、非常に良い試験問題と言えるものでした。
彼は自信満々にこの問題をo4-miniに与えましたが、その後の10分間で、彼は直接的な衝撃を受けました!
o4-miniはまるで水が流れるように、リアルタイムで完全な解法を演算し、同時に自身の推論過程も表示しました。
まず2分を費やして関連分野の文献を検索し、完全に理解しました。そして画面に、学習のためにまず簡略化された「おもちゃ」版を試したいと書きました。
数分後、より難しい元の問題を解決する準備ができたと書きました。
さらに5分後、o4-miniは正しく、しかも小生意気で得意げな解答を提示しました。
オノはこう描写しました。「それは得意げになり始め、さらに一言付け加えたのです。『引用は不要、この神秘的な数字は私が計算したのだから!』」
数学家たちは大きな衝撃を受ける:「AGIは永遠に来ないと思っていたのに」
大きな衝撃を受けたオノは、日曜日の朝早くに急いでSignalにログインし、全ての参加者に状況を報告しました。
このようなLLMと対峙することになるとは全く予想していませんでしたし、これまでモデルでこれほど強力な推論能力を見たこともありません。これは明らかに科学者の働き方です。恐ろしいです。
最終的に、チームはロボットを困らせる10問を見つけることに成功しましたが、AIの驚異的な能力は、依然としてすべての研究者を驚嘆させました。
オノは、AIと協力することはまるで「強力な協力者」と協働しているようだと感じました。
ロンドン数学科学研究所の数学者で、AIの数学応用における先駆者の一人であるヤン・フイ・ヘは、「これはトップレベルの優秀な大学院生にしかできないことだ。いや、実際にはそれ以上だ」と述べました。
さらに、o4-miniの速度も驚くべきものでした。プロの数学者をはるかに凌駕し、人間の専門家が数週間から数ヶ月かかる作業を、わずか数分で完了させました。
それだけでなく、今回のo4-miniの進歩は、人類に警鐘を鳴らすものでもあります。
オノとヘは共に、o4-miniが示す結果が人々に過度に信頼されることを懸念しています。
「証明方法には帰納法、背理法があるが、今や脅迫法も加わった」とヤン・フイ・ヘは言います。
「ある人物が十分な権威ある口調で話すとき、人々は畏敬の念を抱きます。o4-miniは、その言葉一つ一つに疑いようのない自信を帯びているため、脅迫的証明の本質をすでに習得していると私は思います。」
会議が終わりに近づくにつれ、チーム全体も数学者の未来がどうなるかについて考え始めました。
議論は、最も頂点にいる数学者でさえ解決できないT5という、避けては通れない問題へと移りました。
もし最終的にAIがそのレベルに達したら、明らかに数学者の役割は劇的に変化するでしょう。
その時、数学者は問題提起のみを担当し、推論ロボットと対話して、教授が大学院生を指導するように、新たな数学的真理を発見するよう導く役割に転じるかもしれません。
したがって、オノは、高等教育における創造性の育成が、数学という学問分野の灯を絶やさずに継承していく鍵となると予測しています。
「AGIは決して来ない、ただのコンピューターだという考え方は、全くの間違いだと私は常に同僚たちに言い続けてきました」とオノは言います。
「パニックを煽りたいわけではありませんが、多くの点で、これらのLLMは世界の最も優秀な大学院生の大多数を超越しています。」
テレンス・タオ:とっくに知っていた
実はAIが数学研究において持つこの卓越した能力について、テレンス・タオはとっくの昔から知っていました。
最近、彼はソーシャルメディア上で頻繁に情報を共有し、AIが数学問題を解く驚くべき進歩を私たちに報告しています。
例えば、数日前にもこのニュースを共有しました。
18年間未解決だった数学の難問が、わずか30日間でAlphaEvolveと人類の協力により三度も突破されたのです!
6月2日、Fan ZhengがarXivで公開した最新論文は、またしても和差集合の指数θの記録を0.000027だけ上方修正し、1.173050から1.173077へと引き上げました。
0.000027—顕微鏡でしか判別できないほどの微細な差ですが、加法組み合わせ論の天井をさらに一寸押し上げたのです。
論文URL:https://arxiv.org/abs/2506.01896
このような迅速かつ連続的な進歩は、数学者とAI(AlphaEvolve)の相互協力なしには考えられません。
この突破は、テレンス・タオをも驚かせました。「私にとって、これは非常に魅力的な例証です」と彼は述べています。
テレンス・タオは、これは将来の数学研究において、高度なコンピュータ支援、中程度のコンピュータ支援、そして従来の「紙とペン」の方法がどのように相互作用するかを示していると考えています。
これらのパラダイムにはそれぞれ長所と短所があります。
例えば、現在のAlphaEvolveは、その後の論文で使用されている漸近的な構築を適用するのが極めて困難です。しかしその一方で、AlphaEvolveの総当たり検索がなければ、人間がこれらの改善点を発見するのは非常に困難だったでしょう。
そして先月、テレンス・タオはAIと協力し、解析学の古典である「ε-δ」極限問題に挑みました。
GitHub Copilotは、初心者の入門や基本的なタスクの処理において非常に優れたパフォーマンスを示しています。
ユーザーがLean言語を素早く習得するのを助け、構文ヒントを提供し、基本的な定義や宣言をインテリジェントに補完できます。
比較的簡単な証明、例えば関数の極限の和の定理などでは、Copilotは証明構造と重要なステップを正確に予測し、まるで有能なアシスタントのように振る舞います。
しかし、証明が複雑になると、Copilotの弱点が露呈します。
例えば、関数の極限の差や積の定理を扱う際、複雑な代数的な導出や適切な数学的補題(絶対値に関連する補題など)の探索において、力不足を感じさせます。
Copilotは時折「幻覚」を起こし、全く存在しない戦略を生成したり、初歩的なミスを犯したりして、証明プロセスを混乱させることがあります。
この時、テレンス・タオは自ら乗り出して誤りを修正し、時には証明を完全に引き継がざるを得ませんでした。
しかし総じて、現在のLLMの発展は、テレンス・タオがかつて予言した「2026年には、AIが検索ツールや記号数学ツールと組み合わさり、数学研究における信頼できる共著者となるだろう」という未来に、ますます近づいていると言えるでしょう。
参考文献:
https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/