彼女はいかにして「システム2」を大規模言語モデルにもたらしたか | マイクロソフトリサーチアジアの張麗氏との対話

量子位シンクタンク 量子位 | 公式アカウント QbitAI

2023年、業界が依然としてスケーリング法則に注力し、パラメーター規模とデータ規模を絶えず突破しようとしている中、マイクロソフトアジアリサーチの張麗チームは別の道を選びました。

OpenAI o1が発表されるずっと前から、張麗チームは大規模モデルの深い推論能力の探求を開始していました。

認知科学に由来する「システム2」という言葉は、彼女と彼女のチームによって初めて大規模モデルの分野に導入されました。

最近、彼女たちはモンテカルロ探索アルゴリズムを通じて、7Bモデルでo1レベルの数学的推論能力を実現しました。

rStar-Mathの発表は、学術界内外で広範な議論を巻き起こしました。

画像

△ rStar-Math 論文

現在、PPO/GRPO強化学習路線が主流である中で、彼女たちの研究はどのような新たな可能性をもたらすでしょうか?

今回の「大規模モデル革新アーキテクチャ」テーマインタビューでは、量子位がrStar-Mathの著者であり、マイクロソフトアジアリサーチの主席研究員である張麗氏を招き、大規模モデルの知能上限の突破、報酬モデル、そしてシステム2の背後にある物語について語っていただきました。

張麗は、MSRAシステム研究グループの主席研究員であり、マイクロソフトのLongRoPEおよびrStarシリーズのプロジェクトリーダーです。

画像

△ マイクロソフトアジアリサーチ システム研究グループ主席研究員 張麗

以下は、量子位とrStar-Mathの著者であるマイクロソフトアジアリサーチ主席研究員張麗氏との対話の記録です。

知能のブレイクスルー

量子位:rStar-Mathの核となる研究について簡単に説明していただけますか?当初、なぜこの研究方向を選んだのですか?

MSRA 張麗:私たちはこれまで、大規模言語モデルの知能をいかに向上させるかという大きな方向に沿って研究を続けてきました。具体的には2つの方向があります。

一つはモデルに無限かつ永続的な記憶能力を持たせること、もう一つはモデルの深い論理的推論能力を向上させることです。

私たち2025年1月に発表したrStar-Mathの研究は、簡単に言えば、モンテカルロ探索アルゴリズムを公開し、7BモデルでOpenAI o1レベルに近い数学的推論能力を実現した初の研究です。

私たちがこの研究を始めた当時、業界全体のトレンドは依然としてスケーリング法則に集中しており、モデルのサイズが大きく、データ量が多いほど、より良い結果が得られると信じられていました。

しかし、一定期間ごとに新しい規模のモデルがリリースされるにもかかわらず、実際にはモデルの数学的な深い推論能力は顕著に向上していないことに気づきました。

量子位:2024年にo1が発表される前に、システム2の研究を開始していましたか?

MSRA 張麗:はい、2023年5月頃だったと思います。

2022年11月にChatGPTが登場したとき、皆が衝撃を受けましたが、私たちはそれがまだいくつかの点で不十分であることに気づきました。

研究者として、私たちは論理的推論能力を重視しているため、大規模言語モデルが私たち人間と同じように強力な推論能力を持つことを自然に望んでいます。

私たちの最初のアイデアは2つありました。

1つは、モデルが問題を解く際に非常に長い「下書き用紙」を利用できるようにすることです。これがLongRoPEであり、大規模モデルの長文推論ウィンドウを拡張しました。

画像

△ LongRoPE論文は2024年2月に発表

2つ目は、この下書き用紙を効果的に利用することです。そのためには、人間のような深い推論思考が必要であり、それがrStarシリーズの研究につながりました。

画像

△ rStar-Mathの前身、rStar論文は2024年8月に発表

量子位:人間脳の認知科学の用語である「システム2」を大規模モデルの領域に最初に導入したのは誰ですか?

MSRA 張麗:おそらく私たちでしょう。より正確に言えば、この能力を定義しようとしたとき、人間脳の認知科学から類推できる言葉を見つけました。

量子位:当時、なぜシステム2が将来非常に重要な研究方向になると考えたのですか?

MSRA 張麗:大規模言語モデルが本当に実用化され、汎用性を実現するためには、他の能力は比較的容易かもしれませんが、知能や推論能力が最も重要な要素だと考えています。

あらゆる業界のトップタレントを見ると、彼らの専門分野は異なります。数学の問題を解くのが得意な人もいれば、コードを書くのが得意な人もいますし、文章や話術に長けている人もいます。しかし、本質的には皆、強力な推論能力を持っています。これが知能です。

大規模モデルがこの基盤を持つことで、他のアプリケーションに進んだり、大規模モデルの実用化や社会生産性の向上を図ったりすることが、はるかに簡単になるでしょう。

画像

△ システム1と2(速い反応と遅い思考)の区別を示す図

量子位:rStar-Mathの研究過程で、モデルが自己反省能力を自発的に獲得したとのことですが、これは何を意味しますか?

MSRA 張麗:これは意図したものではなく、偶然の産物です。後から考えると、自己反省が大モデルの知能向上における重要な能力であるという点を間接的に検証したのかもしれません。

この自己修正や自己反省は、人間が多くのことを行う際に用いる思考方法であり、必須能力と言えるでしょう。

私たちは「アハ体験」の再現を意図的に追求したわけではありませんでしたが、当時それは確かにチャンスでした。多くのチームが再現を試み、最終的に強化学習がこの能力を引き出すことができると発見しました。

量子位:大規模モデルの自己反省能力を刺激する鍵は何ですか?

MSRA 張麗:個人的には、大規模モデルの事前学習データには、もともと人間の自己反省過程の情報が含まれていると考えています。

インターネット上の大量のデータには、このような内容が自然に混入します。なぜなら、これは人間の基本的な高度な思考パターンだからです。

大規模モデルが事前学習を通じてこれらのパターンを記憶した後、強化学習またはモンテカルロ探索アルゴリズムがこの能力を引き出すことになります。

複雑な問題を解決する過程で、モデルが自己反省を用いることで効果が向上すると分かると、モンテカルロアルゴリズムはそれらを高品質データとしてマークします。

もし強化学習であれば、モデルが自己反省を用いることで正解できると分かると、この戦略により高いスコアを与えます。最終的な結果は、どちらの場合もモデルがこの能力を自発的に獲得することです。

画像

△ rStar-Mathの自己反省能力の発現

モンテカルロ突破

量子位:rStar-Math発表後、大きな反響があったとのことですが、印象に残っているフィードバックはありますか?

MSRA 張麗:確かにrStar-Mathは、これまでの私たちの研究よりも多くの注目を集め、私の予想を完全に超えました。

当時のo1が数ヶ月前に発表されたにもかかわらず、その実現方法を明確に説明する公開レポートがまだなかったためかもしれません。

多くの人々が同様のモンテカルロ探索アルゴリズムを使用していることは知っていましたが、o1レベルの効果には達していませんでした。

私たちが偶然にもそれを達成し、さらに手法にいくつかの革新があったことが、突然注目された理由かもしれません。

「ブレイクスルー」効果があったように感じます。学術界では通常、同じ方向性の研究者だけが自分の仕事に注目しますが、その時はこの分野ではない多くの同僚や友人が「誰それが私たちの仕事を見て、ぜひ会いたいと言っている」とメッセージをくれました。このような状況は非常に珍しいことです。

国内外の多くのメディアも、私たちにインタビューを申し込んできました。X上でも大量の議論があり、一部の人々は非常に高く評価し、7BモデルでOpenAI o1レベルの性能を達成できたことは「非常に信じられない」と述べました。

2025年が小型モデルの時代になるのではないかという議論も起こり、スケーリング法則と他のアプローチについての新たな議論も引き起こされました。

画像

△ Keras創業者フランソワ・ショレ氏のrStar-Mathに対する評価

量子位:何か疑問の声はありましたか?

MSRA 張麗:もちろんです。だいたい2段階に分かれます。

最初はDeepSeek R1とKimi 1.5が出る前で、主な疑問は「小規模モデルの能力がなぜこれほど強いのか」と「この方法は他のタスクに汎化できるのか」というものでした。そのため、後に私たちはコードとデータをオープンソース化しました。

その後、DeepSeek R1とKimi 1.5がリリースされると、「OpenAI o1の効果を再現するのにモンテカルロ探索が本当に必要なのか」という議論が始まりました。これらの疑問はすべて合理的であり、人それぞれ意見が異なります。

量子位:モンテカルロ探索アルゴリズムの報酬モデルと従来のBest of N報酬モデルの根本的な違いは何ですか?

MSRA 張麗:根本的な違いは、モンテカルロ探索アルゴリズムの報酬モデルが「ステップレベル」であること、つまり「過程報酬モデル」であることです。

Best of Nは「結果報酬モデル」であり、過程に注目しません。そのため、モンテカルロ探索アルゴリズムの方が効果的です。

量子位:なぜモンテカルロ探索アルゴリズムは小規模モデルでこれほど優れた性能を発揮するのですか?効果は小規模モデルに限定されるのでしょうか?

MSRA 張麗:小規模モデルでの優れた性能は、むしろその大きな可能性を示しています。

私たちは2024年8月に初期版rStarを発表した際、モンテカルロアルゴリズムの計り知れない可能性を発見しました。

当時、私たちは何の学習も行わず、報酬モデルすら学習させていませんでした。ただ小規模モデルにモンテカルロ探索アルゴリズムを適用しただけで、非常に良い結果が得られ、特殊な微調整を施したモデルの性能に匹敵するほどでした。

システム2はより高度な思考モードであり、ある程度の敷居があります。戦略モデルがあまりにも劣っていると問題ですが、小規模モデルは戦略モデルとしては元々弱いです。

そのため、幻覚などの小規模モデルの非理想的な性能の問題を解決するために、私たちが唯一行ったのは、code-augmented CoTを追加し、モンテカルロ探索アルゴリズムの効果を最大限に引き出すことでした。

画像

△ rStar-Mathにおけるcode-augmented CoTの使用例

量子位:御社の研究発表前、モンテカルロ探索アルゴリズムは主流の解決策でしたか?

MSRA 張麗:以前はそれほど主流ではありませんでしたが、学術界では確かにこの方向性に着目する研究がいくつかありました。

量子位:o1と御社の研究が発表されてから、この手法はより主流になりましたか?

MSRA 張麗:今のところ、その傾向は見られません。ほとんどの人々は依然として強化学習に取り組んでいます。ただ、他の分野の人々がモンテカルロ探索アルゴリズムを試していることは知っています。

私たちの研究が注目されたため、何社かから連絡があり、例えばある企業は数学のAI教育にこのモデルを使いたいと願っていますし、海外のいくつかの著名な研究室はコード関連や数学的証明の分野で協力したいと考えています。

興味深いことに、あるスマートカーメーカーからも連絡があり、私たちのアルゴリズムを彼らのモデルで再現したいと願っており、私たちにいくつかの質問の解答を求めてきました。

量子位:rStar-Mathが産業用モデルに実用化されることを期待していますか?一般的なシナリオでは、モンテカルロ探索アルゴリズムの探索空間は大きすぎませんか?

MSRA 張麗:非常に簡単な問題に対しては、確かにこのような複雑な方法を使う必要はありません。

モンテカルロ探索アルゴリズムは元々AlphaGoによって注目されましたが、それは複雑なタスクにより適しているのかもしれません。

画像

△ AlphaGoにおけるモンテカルロ探索アルゴリズムの概要

一般的なタスクでは、使用することは可能ですが、必ずしも必須ではありません。通常の大規模モデルの1回の回答で十分受け入れられるため、システム2を使って何度も探索する必要はありません。

複数回探索すれば、1回の回答よりも良い答えが見つかるかもしれませんが、両者の差は大きくないかもしれません。費用対効果を考えると、その必要性はそれほど高くないかもしれません。

量子位:次の研究は、長文に焦点を当てますか、それとも深い推論に焦点を当てますか?

MSRA 張麗:長文に関しては、以前LongRoPEを開発した際に、事前学習モデルのテキストウィンドウを無限に拡張できるアルゴリズムを提供しました。

これはマイクロソフトのphiシリーズモデルでも検証されています。

画像

△ Phi-3 Technical ReportにはLongRoPEの使用が示されている

しかし、本当にそのような長さにまで拡張するためには、効率の問題や長文データ、計算能力の問題を解決する必要があり、これらは現在の私の焦点ではありません。

私たちは現在、推論能力の向上、つまり深い推論の側面に重点を置いています。

量子位:報酬モデルの研究を続けますか?

MSRA 張麗:次に、私たちは3つのことを行うかもしれません。

1つ目は、報酬モデルの最適化を継続することです。

2つ目は、戦略モデルの能力をさらに向上させることです。これにより、能動的な質問や自己反省以外の、人間のようなより高度な推論方法を学習できるようになることを期待しています。

3つ目は、タスク領域を拡大することです。数学以外にも、高難度のコード推論タスクにも拡張し、最終的に汎用的な深い推論能力を実現したいと考えています。

量子位:数学の問題を解くことが、常に最も高い知能を要求されるタスクですか?

MSRA 張麗:そうだと思います。数学的推論は基本的に、大規模言語モデルにおいてプログラム実行能力と論理的厳密性が最も要求されるタスクタイプです。

数学者が証明するのに数百年かかる証明問題もあります。個人的には、それが知能の天井の一つの現れだと考えています。

量子位:数学能力の向上に関する研究が多いのは、その結果が唯一であり、データが完全で検証が容易だからだという見方がありますが、数学能力が必ずしも知能の天井を代表するのでしょうか?

MSRA 張麗:数学のタスクは確かに研究に着手しやすく、効果も検証しやすいですが、真に数学的推論能力を向上させることは容易ではありません。

例えば、複数の数学者が出題する高難度数学ベンチマークテスト「FrontierMath」では、現在最強のモデルでも正答率は2%程度に過ぎません。

画像

△ FrontierMathにおける主流SOTAモデルの性能

現在の数学研究が多いのは、データが比較的豊富で、条件が成熟しており、良し悪しの判断がより明確だからです。

証明を要しない問題の中には、手順を見なくても答えが合っているかどうかだけで判断できるものもあるため、大規模モデルの数学能力は開発しやすいと感じられるのかもしれません。

人間が行う他の複雑なタスクについては、現時点では様々な研究条件が十分に成熟していないため、皆が数学能力に取り組んでいるように感じるのでしょう。

しかし、大規模モデルが真に数学者にとって信頼できる助手となるには、まだ長い道のりがあります。

論文:https://arxiv.org/abs/2501.04519

— 終わり —

大規模モデル革新アーキテクチャ特集シリーズのおすすめ記事: 「Transformerはガソリン車のようなもの、attention-freeこそが新エネルギー」| RWKV創業者彭博氏との対話 携帯電話でGPTレベルの知能を実現、MoEよりも究極のスパース技術:メモリを節約し効果は減らない | 面壁&清華大学の肖朝軍氏との対話 MiniMaxは線形アテンションに注力、数百万トークンの長文でも計算能力を1/2700に削減 | MiniMax-01アーキテクチャ責任者鍾怡然氏との対話 Raspberry Piで大規模モデルがスムーズに動作!端末に自律学習と記憶能力を付与 | RockAI CEO劉凡平氏との対話

シンクタンク研究中|大規模モデル革新アーキテクチャ専門研究報告書

モデルアーキテクチャ層の革新は、AIの深い変革を引き起こしています。私たちは、Transformerアーキテクチャの革新的な改善と非Transformerアーキテクチャの革新的な探求がAGIを探求する重要な道筋であると確信しています。今回の対話は、専門シリーズ対話の第2回です。量子位シンクタンクは、業界内の他の大規模モデルアーキテクチャの革新者との連携を心から招き、最先端の認識とベストプラクティスを共有したいと考えています。協力についてはお問い合わせください。

画像

メインタグ:大規模言語モデル

サブタグ:ディープラーニング推論能力AI研究モンテカルロ探索


前の記事:画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出!複雑なシーンの計画能力を最大化

次の記事:MicrosoftがNLWebを発表:あらゆるウェブサイトをAIアプリケーションに変える秘密兵器!

短いURLをシェア