「同僚たちは、これらのモデルが数学の天才に近づいていると本当に言っています」
著者:リンディー・チウ 編集:クララ・モスコウィッツ
5月中旬のある週末、秘密の数学会議が開催されました。世界の最も著名な数学者30人がカリフォルニア州バークレーに集結し、中には遠くイギリスから来た者もいました。参加者は、数学的実力を試すために彼らが考案した問題を解く任務を負った「推論型」チャットボットと対決しました。教授レベルの問題を2日間にわたってボットに投げかけた後、研究者たちは、それが世界で最も解くのが難しい問題のいくつかに答えられることに驚きました。「同僚たちは、これらのモデルが数学の天才に近づいていると本当に言っています」と、バージニア大学の数学者で会議のリーダー兼審査員であるケン・オノは言います。
このチャットボットは、いわゆる推論型大規模言語モデル (LLM) であるo4-miniを搭載しています。OpenAIによって訓練され、非常に複雑な推論が可能です。Googleの同等品であるGemini 2.5 Flashも同様の能力を持っています。ChatGPTの初期バージョンを動かすLLMと同様に、o4-miniはシーケンス内の次の単語を予測することを学習します。しかし、初期のLLMと比較して、o4-miniとその同等モデルは、より軽量で柔軟性があり、専門のデータセットで訓練され、人間からのより強力な強化学習を受けています。このアプローチにより、チャットボットは従来のLLMよりも複雑な数学問題を深く掘り下げることができます。
o4-miniの進捗状況を追跡するため、OpenAIは以前、LLMのベンチマークを行う非営利団体であるEpoch AIに、まだ解答が公開されていない数学問題300問の設計を依頼しました。従来のLLMでも多くの複雑な数学問題に正しく答えることができます。しかし、Epoch AIがこれらの問題(以前に訓練されたものとは異なる問題)をいくつかのLLMに提示したところ、最も成功したモデルでも2%未満しか解くことができず、これらのLLMに推論能力が不足していることを示しました。しかし、o4-miniは最終的にその違いを証明することになります。
Epoch AIは、数学の博士号を最近取得したエリオット・グレイザーを、2024年9月に実施されるFrontierMathという新しいベンチマーク共同プロジェクトに招きました。このプロジェクトでは、異なる難易度の新しい問題が収集され、最初の3つのレベルは学部生、大学院生、研究レベルの課題をカバーしています。2025年2月までに、グレイザーはo4-miniが約20%の問題を解決できることを発見しました。そして、彼は第4レベルに進みました。それは、学術数学者にとっても挑戦的な100問です。世界のごく一部の人々しかそのような問題を設計できず、ましてや答えることはできません。参加する数学者は、メッセージングアプリSignalを介してのみ通信することを義務付ける秘密保持契約に署名しなければなりませんでした。従来の電子メールのような他の連絡手段は、LLMによってスキャンされ、意図せずに訓練されることで、データセットを汚染する可能性がありました。
グループの問題探しは遅々としていましたが、着実に進んでいました。しかし、グレイザーはスピードアップを望んだため、Epoch AIは5月17日(土曜日)と5月18日(日曜日)にオフライン会議を開催しました。そこでは、参加者が最後の挑戦的な問題のバッチを最終決定します。オノは30人の参加者を6人ずつのチームに分けました。2日間にわたり、学者たちは互いに競い合い、自分たちが解けるがAI推論ボットを困らせる問題を考案しました。o4-miniが解けなかった問題ごとに、それを考案した数学者には7,500ドルの報酬が与えられました。
その土曜日の夜までには、オノはこのボットに苛立ちを感じていました。その驚くべき数学能力がチームの進歩を妨げていたからです。「私は、私たちの分野の専門家が数論における未解決問題、つまり博士レベルの良い問題だと考える問題を提案しました」と彼は言います。彼はo4-miniにその問題を解かせました。次の10分間、オノはボットがリアルタイムで解決策を示し、その推論プロセスを実演するのを畏敬の念を持って見つめました。最初の2分間、ボットはその分野の関連文献を検索し、習得しました。次に、画面に「まず、より簡単な『おもちゃ』版の問題を解いて学習したい」と書きました。数分後、ついに「より難しい問題に取り組む準備ができた」と書きました。5分後、o4-miniは正しく、しかし生意気な解決策を提示しました。「非常に生意気になってきました」と、Epoch AIのフリーランスの数学コンサルタントでもあるオノは言います。「最後には『この神秘的な数字は私が計算したものなので、引用は不要です!』とも書きました。」
その敗北後、オノは日曜日の早朝にSignalに飛び乗り、他の参加者に通知しました。「このようなLLMと競い合うとは思っていませんでした」と彼は言います。「モデルでこのような推論を見たことがありません。これこそ科学者がすべきことです。恐ろしいです。」
チームは最終的にボットを困らせる10個の問題を見つけることに成功しましたが、研究者たちはAIがわずか1年で達成した進歩に衝撃を受けました。オノはそれを「強力なパートナー」と協力しているようなものだと例えました。ロンドン数学科学研究所の数学者で、数学分野におけるAI応用の初期の先駆者であるヤン・フイは、「これは非常に優秀な大学院生がすることに匹敵します。実際、それ以上です」と述べています。
このボットは専門の数学者よりもはるかに速く、人間が数週間から数か月かかる作業を数分で完了させることができました。
o4-miniとの対決は刺激的でしたが、その進歩は懸念も引き起こしました。オノとフイは、o4-miniの結果が過度に信頼される可能性があるという懸念を表明しました。「帰納的証明、背理法による証明、そして威嚇的証明があります」とフイは言います。「十分に権威をもって話せば、人々は恐れます。o4-miniは威嚇的証明の技術を習得したと思います。それはあらゆることを自信満々に言います。」
会議の終わりに、グループは数学者の未来について考察し始めました。議論は避けられない「第5層」の問題、つまり最高の数学者でさえ解けない問題へと移りました。AIがこのレベルに達した場合、数学者の役割は劇的に変化するでしょう。例えば、数学者は単に問題を提起し、推論ボットと対話して新しい数学的真理を発見するのを助ける方向にシフトするかもしれません。まるで教授が大学院生を指導するようにです。そのため、オノは高等教育における創造性の育成が、数学を次世代に伝える上で重要になると予測しています。
「私は同僚たちに、汎用人工知能は決して来ない、ただのコンピューターだと言うのは重大な間違いだとずっと言い続けてきました」とオノは言います。「パニックを煽りたいわけではありませんが、多くの点で、これらの大規模言語モデルはすでに世界の優秀な大学院生のほとんどを上回るパフォーマンスを発揮しています。」
研究者がAIを出し抜くのに苦労した秘密の数学会議の内部:https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/