(本文読了時間:15分)
編集部注:近年、人工知能の能力は急速に向上していますが、複雑な推論タスクにはまだ不足があります。マイクロソフト・リサーチ・アジアの研究者たちは、多角的な視点からこれについて研究を進め、大規模モデルの推論能力を向上させる新しい方法を絶えず探求しています。人間の「深層思考」プロセスをシミュレートするためにモンテカルロ木探索を利用するrStar-Mathから、ルールベースの強化学習手法であるLogic-RLへ。大規模言語モデルの数学的直感と記号的手法を融合したLIPSから、自動形式化の精度を向上させる新しいフレームワークへ。さらに、高品質で教師付きの数学データを自動生成するニューロシンボリックフレームワークや、統一推論フレームワークCoRと重要な計画ステップ学習CPLの提案まで、それぞれの研究が大規模モデルの推論能力向上に新しい視点と方法を提供しています。
人工知能の急速な発展は、多くの分野で強力な能力を発揮し、同時に人々からのさらなる期待を生み出し続けています。人工知能が深い思考と推論能力を持ち、「頭を使う」現実の複雑な問題を解決する手助けとなることを願っています。
大規模モデルの推論能力を向上させるため、マイクロソフト・リサーチ・アジアの研究者たちは3つの方向から研究を進めています。1つ目は、モデル自体を改善することで推論能力を強化し、比較的小規模なモデルでも強力な推論性能を持たせること。2つ目は、数学推論のルールを深く学習し、大規模言語モデルの信頼性を高めること。3つ目は、推論の汎化能力を強化し、モデルが分野横断的なタスクで柔軟に応用できるようにすることで、汎用人工知能の進歩を促進することです。
大規模言語モデルのポテンシャル解放――小規模モデルの推論能力をさらに強力に
「世界知識に基づいて訓練された大規模モデルは、膨大な知識を備蓄していますが、既存のモデルはその中に含まれるすべての潜在能力を十分に発揮していません。それだけでなく、既存のモデルは継続的な学習能力に欠けており、これは人間が新しい知識を学び続け、認知の空白を埋める能力とは対照的です」と、マイクロソフト・リサーチ・アジアの主席研究員、張麗は述べています。優れた推論能力はしばしば大規模モデルのサポートに依存するため、一部の研究者は、同様の推論能力をより小規模なモデルでも実現する方法を模索しています。
従来の推論モードでは、大規模モデルは複雑な問題に直面した際、シンプルで直接的な「直感的」推論を用いて回答を生成することがよくあります。この方法は高速ですが、間違いを犯しやすいです。これに対し、人間は問題を段階的に分析し、複数のアプローチを試み、メリットとデメリットを比較検討した上で回答を出します。そこで、研究者たちは rStar-Math を提案しました。その核心は、モンテカルロ木探索(MCTS)を利用して人間の「深層思考」プロセスをシミュレートし、小規模言語モデルが推論能力においてより高いレベルに到達できるようにすることです。
rStar-Math は3つのステップで自己進化を実現します。まず、複雑な数学問題を複数の推論ステップに分解し、モデルが各ステップの貢献を段階的に探索・検証できるようにすることで、小規模モデルが生成する推論軌跡が正しく高品質な中間ステップで構成されることを保証します。次に、プロセス嗜好モデル(PPM)として機能する小規模モデルを訓練し、各数学推論ステップに対して報酬ラベルを信頼性高く予測できるようにすることで、必要なプロセス報酬モデリングと信頼性の高いアノテーションを実現します。最後に、4段階の自己進化スキームを通じて、ゼロから最先端の戦略モデルとPPMを段階的に構築し、各段階で最新の戦略モデルとPPMを用いてモンテカルロ木探索を行い、徐々に進化させて、より強力な戦略モデルとPPMを訓練します。
実験の結果、rStar-Math は4つの小規模言語モデル(15億~70億パラメータ)でその有効性を確認しました。米国数学オリンピック予選(AIME)では、rStar-Math は平均で53.3%(8/15)の問題を解決でき、優秀な高校数学の上位20%にランクインしました。
rStar-Math: Small LLMs can master math reasoning with self-evolved deep thinking
論文リンク:
https://arxiv.org/pdf/2501.04519
図1:rStar-Math 概略図
研究者たちはまた、ルールベースの強化学習手法である Logic-RL を提案しました。これは、論理パズルを訓練データとして合成することで、複雑な論理問題におけるモデルの推論能力を向上させます。Logic-RL は、実用的なシステムプロンプトと厳格なフォーマット報酬関数を導入し、推論モデルが近道を通ることを防ぎます。例えば、モデルが回答を生成する際、特定のフォーマットに従って推論プロセスと回答を構成する必要があり、推論プロセスと回答の両方が要求を満たす場合にのみ高い報酬を得られるようにすることで、推論プロセスの完全性と正確性を保証します。
Logic-RL で訓練されたモデルは、論理パズルで優れた性能を発揮するだけでなく、70億パラメータの小規模モデルによる数学競技ベンチマークテスト(AIMEやAMCなど)でも強力な汎化能力を示し、それぞれ正答率が125%と38%向上しました。
Logic-RL: Unleashing LLM reasoning with rule-based reinforcement learning
論文リンク:
https://arxiv.org/pdf/2502.14768
数学推論能力の強化――より信頼性の高い推論
数学は科学の基礎であり、厳密な論理性と高い精度を持っています。人工知能にとって、数学推論の難問を解決することは、AIの推論能力を大幅に向上させ、モデルの各分野での幅広い応用を促進するでしょう。しかし、大規模モデルの自然言語処理能力だけに頼っていては、数学推論に必要な厳密な基準を満たすのは困難です。そこで、研究者たちは形式化と記号化の研究手法を用い、モデルが人間が持つ既存の数学的手法やツールを学習し、数学のルールを習得することで、推論の効率と精度を向上させています。
「自然言語は人間の言語であり、コンピューターや大規模モデルのネイティブ言語ではありません。彼らは自然言語を直接理解することはできません。私たちは、大規模言語モデルの出力をコード形式に変換し、それを公理、例えば『1+1=2』のような自明な公理にマッピングすることで、モデル出力の正確性を検証したいと考えています。これは、人間がコミュニケーションの際に聞いた言葉を自分の理解に変換するのと似ていますが、私たちはそれを形式化プロセスを通じてコンピューターが理解できるツールに変換しています」と、マイクロソフト・リサーチ・アジアのシニア研究員、張憲は述べています。
数学言語は数学定理、不等式証明などを含み、大規模言語モデルの言語体系とは顕著な違いがあります。大規模モデルに数学問題を理解させるには、まず形式化と記号化の手法を通じて数学問題をコード形式に変換し、それからコンピューターが理解できる公理にマッピングする必要があります。これに基づいて、研究者たちは大規模モデルに基づいた記号推論不等式証明器(LLM-based inequality prover with symbolic reasoning)LIPS を設計しました。これは、大規模モデルの数学的直感と記号的手法によってエンコードされたドメイン固有の洞察を創造的に融合し、数学推論のどの部分が大規模モデルに最も適しており、どの部分が記号的手法に適しているかを判断します。
人間がこのような問題を解決する際の考え方を分析することで、LIPS は2つの戦略を抽出しました。1つは記号的手法で処理されるスケーリング(scaling)。2つ目は大規模モデルで処理される書き換え(rewriting)です。複数の数学競技からの161個の非常に挑戦的な不等式に対してLIPSを評価した結果、LIPSは現在最先端の性能を示し、追加の訓練データなしで既存の大規模モデルや記号的手法を大幅に上回ることが示されました。
Proving Olympiad inequalities by synergizing LLMs and symbolic reasoning
論文リンク:
https://openreview.net/pdf?id=FiyS0ecSm0
図2:LIPS 記号推論不等式証明器
形式化手法は大規模モデルが様々な数学推論タスクで大きな可能性を示す一方で、大規模モデルのデータ記述の自動形式化における成功率は依然として低いです。具体的には、大規模モデルの自動形式化において、1回パス率(ランキング1位の生成結果が正しい)と k回パス率(ランキング上位 k位の生成結果に正しいものがある)の間には明らかな差異があります。
このギャップを縮小するために、研究者たちは新しいフレームワークを導入しました。これは、記号的等価性(symbolic equivalence)と意味的一貫性(semantic consistency)という、革新的で補完的な2つの側面から自動形式化の自己一貫性を確立します。記号的等価性は、自動形式化候補結果間の論理的等価性を検証するために、伝統的な比較(最終的な回答や実行挙動など)を拡張します。意味的一貫性は、再非形式化(逆翻訳)結果と元の自然言語記述間の埋め込み類似性を測定することで、記号的等価性が見落とす可能性のある予期せぬ推論の差異を修正します。この手法は、自動形式化プロセスが元の記述の意図された意味と一貫性を保持することを保証します。MATHとminiF2Fデータセットでの実験は、この手法が自動形式化の精度を大幅に向上させ、様々な大規模言語モデルとベースライン手法に対して最大0.22-1.35倍の相対改善を実現したことを示しました。
Autoformalizing mathematical statements by symbolic equivalence and semantic consistency
論文リンク:
https://openreview.net/pdf?id=8ihVBYpMV4
図3:自動形式化フレームワーク
さらに、研究者たちは、高品質な数学データセットの極端な不足も、大規模言語モデルの数学推論能力向上を制限する重要な要因の一つであると考えています。この困難を克服するため、研究者たちは、高品質で教師付きの数学データを自動生成するためのニューロシンボリックフレームワークを提案しました。このパラダイムは、ニューラルとシンボリックの利点を組み合わせています。一方では、記号空間での体系的なサンプリングを通じて多様な数学問題を生成し、記号ソルバーを利用して問題の有効性を保証します。他方では、大規模モデルは記号空間から自然言語空間への変換を効果的にサポートし、新しく生成された形式化された問題がそれに対応する自然言語バージョンと一貫性を保つことを保証します。
Neuro-symbolic data generation for math reasoning
論文リンク:
https://openreview.net/pdf?id=CIcMZGLyZW
図4:ニューロシンボリックフレームワーク
大規模言語モデルの推論汎化能力を向上――より利用可能な推論へ
推論汎化能力は、人工知能が真に汎用性を備えているかどうかの重要な指標です。強力な汎化能力を持つモデルは、異なる分野の知識境界を越え、「一つを知って他を推測する」ことができ、それによって人工知能の応用範囲と価値を拡大します。研究者たちは、モデルが数学データで訓練された後、その推論能力が科学、コードなどの複数の分野で顕著に向上することを発見しました。この発見は、大規模モデルの推論汎化能力向上に新しいアイデアと方向性を提供します。
自然言語、コード、記号言語という3つの推論パラダイムを同一の推論軌跡に統合することで、研究者たちは統一推論フレームワーク CoR(Chain-of-Reasoning)を提案しました。その中で、自然言語は問題の背景と要求を理解するのに役立ち、コード言語は正確な計算と論理処理に優れており、記号言語は簡潔かつ厳密な方法で数学的および論理的な関係を表現できます。CoR は、モデルがまず特定のパラダイムに基づいて推論を行い、問題の異なる段階やニーズに応じて柔軟にパラダイムを切り替え、以前に生成されたコンテンツに基づいて多パラダイムの協調推論を継続することを可能にし、一般的な数学タスクにおける推論の汎化を実現します。
さらに、プロンプトを調整することで、モデルは推論の深さと使用するパラダイムの数を変更でき、様々なタスクへの適応性を大幅に向上させました。5つの数学推論データセットでのテストにおいて、CoR は大幅な改善効果を達成し、驚くべき一般的な数学問題解決能力を示しました。これは、数学計算問題と数学証明問題の両方を解決できることを意味します。
Chain-of-Reasoning: Towards unified mathematical reasoning in LLMs via a multi-paradigm perspective
論文リンク:
https://arxiv.org/pdf/2501.11110
図5:異なるパラダイムにおける推論プロセス
さらに、既存の大規模モデルは、特定のタスクまたは特定の分野(数学やプログラミングなど)における推論能力向上に主に焦点を当てており、様々な推論タスクにおけるモデルの汎化能力の問題を十分に解決していません。推論タスクにおける汎化能力を強化するために、研究者たちは、通常汎化能力を制限する特定のタスクアクション空間に限定されず、より高レベルの抽象計画のアクション空間内で探索を行うことを提案しています。
これまで大規模モデルを用いて推論計画と特定のタスクソリューションを生成し、推論能力を向上させる関連研究を分析することで、研究者たちは、特定のタスクソリューションが特定のタスクスキルと密接に関連していることを発見しました。対照的に、計画は、どの知識を適用するか、どのように問題を分解するかを決定するなど、問題解決のための抽象的な思考を表しており、これによりモデルがより広範でタスクに依存しない能力を培うのに役立ち、結果として汎化能力が向上します。
マイクロソフト・リサーチ・アジアの主席研究員、韓雪婷は次のように述べています。「人間が問題解決を考える際には、いくつかの共通した戦略が存在します。例えば、複雑な問題をサブ問題に分解すること、多くの情報から重要な部分を抽出すること、そして特定の情報に基づいて既存の知識(数学の定理やプログラミングのアルゴリズムなど)を思い出して利用することです。これらの問題解決戦略を学習することで、新しい問題に遭遇した際に、大規模モデルも人間と似たような問題解決の考え方を形成し、より効果的に問題を解決できるようになります。」
これに基づき、研究者たちは重要計画ステップ学習 CPL(Critical Plan Step Learning)手法を提案しました。これは、計画ベース探索とステップレベル利得嗜好最適化(Step-APO)の2つの主要部分から構成され、重要な計画ステップを学習します。計画ベース探索は、モンテカルロ木探索を利用して多段階推論タスクで異なる計画ステップを探索し、計画木を作成することで、モデルがタスクに依存しないスキルを獲得するのを助け、異なるタスクでのモデルの汎化能力を向上させます。Step-APO は、モンテカルロ木探索を使用して得られたステップレベル嗜好ペアの利得推定値を統合し、モデルがステップ間のきめ細やかな嗜好を学習し、重要な計画ステップを識別し、誤ったステップの影響を弱めることを可能にし、それによってモデル全体の推論能力を強化し、異なるタスクでのモデルの汎化能力を向上させます。
CPL: Critical plan step learning boosts LLM generalization in reasoning tasks
論文リンク:
https://arxiv.org/pdf/2409.08642
図6:CPL 概略図
推論能力の境界を絶えず拡大し、大規模モデルの課題に対応
数学推論からモデル推論の汎化能力向上まで、直感的な迅速な回答から深層思考を経た回答まで、マイクロソフト・リサーチ・アジアの研究者たちは、大規模モデル推論性能の境界を絶えず探求しています。新しい視点と方法を導入することで、彼らはこの分野の最先端の発展を推進しただけでなく、より多くの関連研究が新しい進展を遂げることを促進しました。大規模言語モデルの性能と信頼性の向上に伴い、人工知能の実世界における応用範囲も絶えず拡大しており、スマート教育、スマート医療、スマート科学研究などの分野に強力な技術サポートを提供しています。
しかし、現在の大規模モデルが依然として多くの課題に直面していることも認識しなければなりません。例えば、コンテンツ生成時に発生する幻覚問題や、推論プロセスが十分厳密でないことなどです。これらの問題は、特定の応用シナリオで深刻な結果を招く可能性があります。例えば、科学研究では、モデル推論の偏差が間違った研究方向を招き、資源の大きな無駄を引き起こす可能性があります。医療健康分野では、不正確な情報が患者の生命安全を直接危険にさらす可能性があります。
前述の研究に加え、マイクロソフト・リサーチ・アジアの研究者たちは、人工知能の推論能力を向上させるために、さらに様々な角度から試みています。これには、LLMを用いてRustコードの正しさ証明を自動生成し、Verus検証ツールのユニークな機能に合わせた方法を設計すること、Rustコードの形式化証明におけるデータ不足問題を解決するためにSAFEフレームワークを提案すること、変化記号を用いて形式化定理を構築することでニューラル定理証明(NTP)におけるデータ不足問題を緩和するAlchemyフレームワークを立ち上げることなどが含まれます。これらの成果は、大規模言語モデルの推論能力向上にさらなる可能性を提供し、今後の研究方向にも豊かなアイデアを提供しています。
その他の関連研究:
AutoVerus: Automated proof generation for rust code
https://arxiv.org/abs/2409.13082
Automated proof generation for rust code via self-evolution
https://arxiv.org/pdf/2410.15756v1
Alchemy: Amplifying theorem-proving capability through symbolic mutation
https://arxiv.org/pdf/2410.15748
Mutual reasoning makes smaller LLMs stronger problem-solvers
https://arxiv.org/pdf/2408.06195