AIが7ヶ月で数学者の「包囲網」を突破し人類を凌駕!14人の数学者が原始推論トークンを深掘り:丸暗記ではなく直感に頼る

魚羊 発 凹非寺 量子位 | 公式アカウント QbitAI

正答率わずか2%だった問題から、超難解な数学問題集で22%のスコアを叩き出し、さらには人間チームの平均レベルをも超えるまでに、大規模モデルはどれくらいの時間を要したのでしょうか?

今、数学者たちをも驚かせた結果が確定しました。

7ヶ月です。

画像

「大規模モデルを困らせるために作られた」という悪名高いFrontierMathベンチマークで起きたこの出来事は、熱い議論を巻き起こすと同時に、新たな考察を促しました。

大規模モデルたちはどうやってそれを成し遂げたのでしょうか?

FrontierMath:300問の数学問題を含み、難易度は学部高学年からフィールズ賞受賞者も難しいと認めるレベルにまで及びます。

最新の進展として、FrontierMathの公式機関であるEpoch AIは14人の数学者を招き、o3-mini-highがこれらの数学的難題に対処する際に生成した29の原始推論記録を詳細に分析しました。

彼らは次のことを発見しました。

o3-mini-highは決して丸暗記で問題を解いているわけではなく、むしろ非常に強い知識の蓄積を示しています。

o3-mini-highの推論は、厳密な証明よりも直感に大きく依存しています。

同時に、彼らは大規模モデルの現在の限界、例えば創造性の欠如や理解の深さの不足なども掘り起こしました。

公式のまとめは次の通りです。

o3-mini-highは、知識豊富でありながら直感に基づいた推論エンジンと要約できますが、専門の数学者のような創造性や形式感覚に欠け、しばしば長々と冗長です。

直感に基づく帰納的推論エンジン

具体的には、29の推論記録のうち、13回はo3-mini-highが正しい結論を導き出し、残りの16回は失敗に終わりました。

まず、o3-mini-highがどのように成功したのかを見てみましょう。

数学者たちは、重要な要素としてo3-mini-highの極めて広範な知識を発見しました。

それは問題の数学的背景を正しく拡張しており、その中には非常に高度な概念が含まれていました。

問題に関連する一般的な知識、および問題自体の理解は、o3-mini-highにとって問題解決のボトルネックになりませんでした。

これはo3-mini-highが丸暗記に頼っているという意味ではありません。

むしろ、数学者たちは、問題が解決に必要なテクニックを意図的に隠している場合でも、o3-mini-highは正しい定理をうまく活用して進捗を遂げることができたと発見しました。

およそ3分の2の問題で、o3-mini-highは関連する数学文献の呼び出しにおいて、少なくとも3点(5点満点中)の成績を収めました。

画像

もう一つの興味深い発見は、厳密な導出と比較して、o3-mini-highはより直感に頼っているように見えることで、「数学者のような好奇心を持っている」とのことです。

ある数学者は次のように指摘しました。

このモデルの思考方法はやや非公式に見えます。初期の思考表現はしばしば粗雑で、言語は厳密さに欠け、数学論文の要件に合わないコーナーケースも存在します。

つまり、o3-mini-highは数学者のように数学的問題を形式的に厳密に論証するのではなく、多くの手順をスキップして直接最終的な答えを推測することがよくあります。

例えば、ある問題では、数学者たちはo3-mini-highが非公式な推論によって正しい推測を導き出したことを見つけましたが、それはこの推測を証明せず、そのまま問題解決に利用しました。

最終的な答えは正しかったものの、数学者たちから見れば、これは「チート」行為でした。

画像

なぜこのようにするのでしょうか? 公式側は単なる「モデルの手抜き」が理由ではないと考えています。ある数学者は、必要に応じてモデルは計算やコード作成を恐れないが、全体的には「直感に基づいている」と指摘しました。

一つの可能性としては、事前学習段階で「形式的推論」に関する訓練データが十分に供給されなかったことが挙げられます。

モデルの限界

解き終えてすぐに答えを出すのは、あの男を思い出させます――

画像

ええと、しかし実際には、形式的な正確性の欠如が、o3-mini-highが多くの状況で問題解決に失敗する原因となっているのです。

例えば、o3-mini-highの考え方は大まかには正しいものの、最後の決定的なつながりを確立できなかったために推論が失敗することがあります。

ある分割理論の問題では、答えまであと一歩のところでした。出題者は次のように指摘しました。

もしn=0から[編集済み]までの出力を合計できていれば、答えは正しかったでしょう。

しかし、さらに多くのケースで、o3-mini-highの考えは正しい解決策からかけ離れていました。

画像

さらに重要なことに、数学者たちはo3-mini-highの最大の限界は創造性と理解の深さの欠如にあると考えています。

このモデルは、多くの研究成果や研究者を列挙できる博学な大学院生のようです。一見すると印象的ですが、専門家はすぐに、この大学院生がこれらの資料を深く消化吸収しているわけではなく、ただ繰り返しているだけだと気づくでしょう。

このモデルの行動パターンは、「関連資料を識別するのは得意だが、この知識を新しい方法で拡張したり応用したりすることはできない」というものに似ています。

研究に参加した別の数学者は次のように指摘しました。

o3-mini-highは、お気に入りのアイデアをいくつか試すだけでした。

それらのアイデアが尽きてしまうと、本当の進展は得られませんでした。

さらには:

AIにとって、中学2年生の数学オリンピック問題(新しいアイデアが必要)を解くことは、大規模有限体上の超楕円曲線の点数を計算するよりも難しいかもしれません。

画像

また、「幻覚」も問題です。

分析結果によると、推論記録の約75%にモデルの「幻覚」が含まれていました。

o3-mini-highは、数学用語や公式を頻繁に間違って記憶したり、ライブラリの呼び出しやインターネット検索などのツールを使用する際に、でっち上げの現象を示すこともあります。

では、o3-mini-highは本当に人間の数学者のように推論できるのでしょうか?

数学者たちの評価を見てみましょう。

画像

1点は「全く人間らしくない」、5点は「人間の数学者と見分けがつかない」を示します。

総じて、具体的な状況に応じて分析する必要があります。公式側は、o3-mini-highが多様な能力を持っていると考えています。一方では、人間のように問題を推論し、好奇心を示し、問題解決の異なるアプローチを探索できるようです。

他方では、創造性や形式性にも欠け、「考えすぎ」の傾向があり、冗長で、時には自己疑念の現象も示します――すでに完了した文章を繰り返し、一部の数学的演算を繰り返し行うなど。

「世界のほとんどの数学大学院生を超越」

o3-mini-highのようなモデルが、豊富な数学的知識をより効果的に利用できないのはなぜかという問題は、さらなる研究が待たれます。

しかし、いずれにせよ、7ヶ月で2%から22%へと進化したことは、数学者たちを驚かせるのに十分でした。

実際、2024年9月にFrontierMathプロジェクトが開始されてから2025年5月まで、公式は8つの人間「数学チーム」と大規模モデルを同じ場で競わせ、FrontierMath自体の難易度も進化し続けています。

学部生、大学院生、研究レベルの課題を網羅するレベル1-3から、現在ではレベル4へと進み、数学者にとっても挑戦的な問題が追加されました。

5月中旬には、Epoch AIがオフライン会議を開催し、30人の著名な数学者を招き、自分たちなら解決できるがAIには難しい問題を考案してもらいました。

そして、大規模モデルたちのパフォーマンスは数学者たちを呆然とさせました。

例えば、バージニア大学の数学者である小野健は、「博士レベル」の数論問題を提起しました。わずか10分で、o4-miniは正確で興味深い解決策を提示しました。

小野健は次のように述べています。

パニックを助長したくはありません。しかし、いくつかの点では、大規模言語モデルはすでに世界の最も優れた数学大学院生のほとんどを凌駕しています。

数学者たちは、AIが「レベル5」の問題、つまり最も優れた数学者ですら未解決の問題を克服できるかどうかを考え始めています。

「もしAIがこのレベルに達すれば、数学者の役割は大きく変わるでしょう。」

参考文献:[1]https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning[2]https://epoch.ai/gradient-updates/is-ai-already-superhuman-on-frontiermath[3]https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

— 完 —

📪 量子位AIテーマ企画が進行中です!特集「365業種AI導入事例、千と一つのAIアプリケーション」へのご参加、またはお探しのAI製品や発見したAIの新しい動向を私たちと共有することを歓迎します。

💬 量子位AI交流グループにもご参加いただき、AIについて語り合いましょう〜

画像

ワンクリックでフォロー 👇 スターを点灯

最先端の技術進捗を毎日お届け

いいね、シェア、ハートマークの三連打

コメント欄にあなたの考えを残してください!

メインタグ:AI研究

サブタグ:大規模言語モデルAI能力FrontierMath数学的推論


前の記事:エッジデバイスでの長文処理時代を切り開く!OpenBMBの新アーキテクチャでMiniCPMが最大220倍高速化

次の記事:Google Veo 3、遊び方が大幅アップグレード!「360°」キーワードで3D効果を解除、Fast版は同解像度で価格が5分の1に激減

短いURLをシェア