Ant Group 武威：次世代「推論」モデルパラダイム大予想

著者丨陳彩嫻

R1以降、次世代基盤モデルにおける「推論」（Reasoning）能力の研究において、長い思考連鎖が注目される方向性となっています。一方、R1は大規模モデルの深層思考の実現可能性を証明しました。同時に、R1は強力な性能を示しましたが、大規模モデルの推論の序幕はまだ始まったばかりです。

さらに、R1が海外で起こした波紋は、国内の人工知能研究にも顕著な影響を与えています。それは、より多くの研究者が高い視点から考え、先見的で指導的な技術思想を提出するようになったことです。アリ技術研究院自然言語処理責任者の武威氏の推論に関する考察はその典型の一つです。

武威氏は北京大学数学科学学院で学部と博士号を取得しました。2011年にマイクロソフトリサーチフェローを獲得後、2012年にマイクロソフトアジア研究院に入所し、主任研究員、マイクロソフトXiaoIceのチーフサイエンティストを歴任しました。アリに参加する前は、美団NLPセンターの責任者も務めていました。

モデルの推論に関して、武威氏は数学を出発点とし、現在の業界主流とは異なる多くの意見を提示しています。

実際、OpenAIがo1を発表する前の2023年下半期には、武威氏とチームはすでに大規模モデルの推論問題の研究を開始していました。武威氏は、R1の実現結果はエキサイティングであるが、同時に長い思考連鎖による推論は最適ではない可能性があると評価しています。「このようなモデルは次元が高すぎ、エネルギーが高すぎ、表現が不安定になりがちだからです。」

実際、物理学や化学における多くの現象は、エネルギーが最小の構造が最も安定であることを示しています。したがって、武威氏は、将来の推論モデルはより低次元でより安定した人工知能システムになる可能性があると推測しています。長い思考連鎖がシステム2であるとすれば、一部の研究は、人間の日常的な思考では、より少ないエネルギーを消費するシステム1が支配的であることを示しています。

さらに、現在の主流の推論モデルは、推論結果は正しいが、推論プロセスが間違っている現象が現れています。長い思考連鎖の実装では、エラー訂正のコストも増加します。数学を例に、武威氏は次のように指摘します。推論モデルが最終段階に達したとき、思考プロセスはおそらく結果よりも重要です。問題を解決することに比べて、モデルが思考中に新しい知識（例えば、古典的な数学問題の新しい証明法）を発見することの方が価値があるのです。これにより、深層思考にはまだ大きな可能性が秘められていることがわかります。

システム1とシステム2、あるいは速い思考と遅い思考を効率的に組み合わせることができる推論モデルを設計することが、大規模モデルの次の重要な方向性となっています。武威氏は、数学的な観点から、人工知能の思考方法を記述するエレガントな数学モデルが究極の解決策かもしれないと考えています。あるいは、自己整合性がすべての推論システムの最終的な帰着点かもしれません。

以下は、AI科技評論と武威氏の対話です。

論文リンク：https://arxiv.org/pdf/1102.1808

AI科技評論：現在、業界では「推論」について様々な定義があり、ReasoningとInferenceを混同する見方もあります。

武威：はい。私が読んだ文献によると、「推論」の定義は最も早く2011年に遡ることができます。その年、機械学習の大家Leon Bottou氏が「From Machine Learning to Machine Reasoning」という記事を書きました。当時、業界では「Reasoning」という明確な定義がありませんでしたが、Leon Bottou氏はこの記事で、彼が考える「Reasoning」（推論）は「既存の知識を代数的に操作して新しい問題を解決すること」であると述べました。

システム1とシステム2についての認識はほぼコンセンサスに達しており、システム1の特徴は速く、自発的で、消耗がないことです。システム2は、非常に努力が必要な行動や心理活動に注意力を割り当てることです。これは著者ダニエル・カーネマンが考える速さと遅さの違いです。しかし、この本でより興味深いのは、著者が速い思考と遅い思考がどのように協調するかについて書いていることです。

最初の点は、本の中で、人間は毎日の思考の大部分においてシステム1の速い思考が支配的であると述べられていることです。

速い思考は非常に多く複雑なアイデアパターン（観点モデル）を生み出し、これらをシステム2に伝達します。そして、ほとんどの場合、システム2は考えずに受け入れ、すべてのアイデアをいちいちチェックしません。したがって、日常的な思考のほとんどはシステム1の結果であり、システム2は怠惰であり、特定の状況でのみチェックと思考を行います。同時に、システム1は速く考えるため、多くの間違いを犯し、その間違いに対してより深遠な洞察を提供することもあります。

なぜ間違いがあるのでしょうか？今日の大きなモデルに幻覚があるのはなぜでしょうか？これは大規模モデルの幻覚の説明として使えると思います。結局のところ、エネルギーが最小であるため、システム1は「認知の容易さ」（Cognitive Ease）を追求します。つまり、これらの情報を自分の認知と統合する際に、スムーズで自己整合性があればそれで良く、間違いがあるかどうかはシステム1は気にしません。

これはシステム1が好むことであり、確かにエネルギー消費は低い。そして、これらの間違いはシステム2が比較的怠惰でほとんどチェックしないため、これらの結果が固定化されてしまいます。最後に、この種の間違いがますます蓄積されます。この間違いの根源は認知的な怠慢や簡便さにあり、回避することは困難ですが、興味深い点は、著者が言うには、「間違いを回避できないなら、どうすれば良いか？」ということです。彼は、最善の方法は、どのような状況で間違いを犯しやすいかを可能な限り発見し、これらの高リスク状況についてできるだけ多く考えることだと言っています。

最終的に、著者は高リスク状況をどのように発見するかについての解決策は提示していません。彼は、多くの状況において、人間は最終的に自己整合性のある世界に生きるようになり、間違いがあっても自己整合性があればそれで良いと考えています。

大規模モデルに戻ります。ダニエル・カーネマンの言葉を引用すれば、大規模モデルは長い推論と短い推論を組み合わせることができるはずです。それは一つのモデルで実現できるかもしれませんが、二つのモデルかもしれません。重要なのは、二つのモデル、あるいは二つのシステムがどのように連携するかです。現在、業界にはまだ特にエレガントな方法はありません。よりエレガントな方法は、二つのモードを自動的に割り当てることであるべきです。

AI科技評論：核心的な問題、つまりシステム1とシステム2をどのように組み合わせるかについて触れられましたね。単一のTransformerアーキテクチャで実現可能でしょうか？この点についても、まだコンセンサスがないようです。

武威：良いモデル、あるいは良い方程式（公式）がこの問題を解決するためにまだないからこそ、皆がいくつかの試みをしているのだと思います。例えば、長い思考連鎖と短い思考連鎖のデータを混ぜてSFTを行うのは、一つの解決策かもしれません。あるいは、強化学習で長さに対する報酬（Reward）を与える方法もあります。

しかし、これらは速い思考と遅い思考、あるいはシステム1とシステム2の連携を記述するモデルをまだ持っていません。

結局のところ、人工知能の思考方法を記述するためのモデル、できれば数学モデルが必要だと思います。私の推測では、このモデルは低次元空間上のモデルであり、エネルギーを最小化することで実現される可能性が高いです。

AI科技評論：それでは、今後、モデルの推論問題をどのような観点からさらに研究する計画ですか？

武威：自己回帰以外にも、まず計画を立ててから推論する、という階層的な構造にも注目しています。

例えば、ユーザー調査の計画を立てるタスクを任されたとき、すぐにペンを持って書き始めますか？そうではありません。通常は、頭の中でまず草稿があり、抽象的な計画があって、それから各ステップを実行します。この抽象的な計画は、推論プロセス全体の低次元表現と考えることができます。この低次元の下で、それをどのように展開して高次元の実行にするか、というわけです。これも一種の推論パラダイムです。

実際、ヤン・ルカン（Yann LeCun）は毎回のインタビューで、計画と推論は非常に重要だと言っています。しかし同時に、現在の推論モデルは簡単すぎるからあまり正しくないように思うとも言っています。どのような推論モデルが正しいのかについては、ルカンも言っていません。

AI科技評論：先ほどシステム1とシステム2に言及されました。業界では、モデル設計において人間の脳を模倣する必要があるのか、という議論もあります。

武威：正直なところ、機械が人間と同じように考える必要はないと思います。この問題は私も長い間悩んできたことです。人工知能のモデルを人間の脳の方式に従って設計すべきか、という問題です。例を挙げると、コンピュータはπの値を非常に速く計算できますが、人間の脳ではできません。

例えば、『ファスト＆スロー』という本には、人間の思考方法に関する長い記述がありますが、これらの記述が必ず正しいのでしょうか？確かに、いくつかの事実を通じて本の中で述べられていることを検証することはできますが、問題はここです。1番目のケースが正しい、2番目、3番目、4番目…と100番目まで正しいからといって、101番目のケースも必ず正しいとは言えません。

これは数学的には成り立ちません。数学はこのような状況を許しません。例外がある場合は、数学はその例外を制約する条件を必ず持つ必要があります。言い換えれば、不完全帰納法は正しくありません。

ですから、色々考えた結果、私の最終的な考えは、人工知能システムが人間のような思考をすべきかどうかに関わらず、私はただその目標に近づく方法を考えれば良い、ということです。その目標とは、先ほど述べた8文字です。「多快好省、双商斉備」（多く、速く、良く、節約し、知能と感情の両方を備える）です。

AI科技評論：現在の推論にはもう一つ問題があります。それは、o1、R1、Geminiなどのモデルが推論を行う際に、結果の正確性をより重視し、途中の推論プロセスが間違っている可能性があるという研究結果があることです。

武威：この現象について、私の考えは二つあります。一つ目は、長い思考連鎖は比較的笨拙な方法で深層思考を実現したものだと思います。もちろん、それは非常に意義があります。なぜなら、それは少なくとも実現方法を示したからです。たとえその実現が高エネルギー消費であったとしてもです。私たちは、深層思考を空論するだけで、何の実現もなければなりません。

二つ目の考えは、モデルの能力が最終段階に発展したとき、思考のプロセスはおそらく結果よりも重要になるということです。数学を例に見ると、多くの数学問題にはすでに結果がありますが、それが証明されたものと証明されていないものがあるだけです。

例えば、フェルマーの最終定理は、当初フェルマー予想と呼ばれていましたが、その結果は以前からありました。それは、整数n > 2の場合、方程式 x^n + y^n = z^n に正の整数解が存在しないということです。リーマン予想も同様で、結果は以前からありますが、重要なのは、その仮説から結論までの求解プロセス全体をどのように得るかということです。数学的な観点から見ると、推論プロセスは非常に重要です。

ですから、アンドリュー・ワイルズの大きな貢献は、一方ではフェルマー予想を証明し、フェルマーの最終定理にしたことですが、より重要なのは、その証明プロセスの中で、楕円曲線、代数幾何学など、数学の多くの新しい方向性が生まれたことです。これは数学界にとって巨大な貢献です。

私見では、推論は論理を用いて知識を組織的に組み合わせることです。異なる問題に対して様々な知識の組み合わせを提供できるとすれば、人類がこれまでに触れたことのない、人類文明の進歩に非常に大きな啓発を与えるような知識の組み合わせは存在するのでしょうか？もし存在するなら、そのような組み合わせを生み出す価値は、あなたが問題を解決するよりも遥かに大きいでしょう。なぜなら、新しい知識を創造することになるからです。

この観点から見ると、深層思考の巨大な価値と可能性はまだ掘り起こされていません。推論の結果は重要ですが、私はその思考プロセスをより重視しています。現在、R1は私たちに高次元の実装を提供してくれました。私たちはR1を基盤として、より大胆なイテレーションを行うべきです。

AI科技評論：R1が登場してから、推論に対する見方は変わりましたか？推論の研究に対する興奮は増しましたか？

武威：とても刺激的だと思います。R1は深層思考のスケール化された実現方法を見せてくれましたが、R1の本質は依然として自己回帰であり、ここにはまだ大きな余地があると考えています。

普遍的なモデルが存在するべきだと思いますが、そのモデルがどのような形をしているのかは分かりません。ですから、2023年に推論の研究を始めたばかりの時、まずAgentの研究を始めました。

なぜまずAgentの研究だったのか？それは普遍的な方法が分からなかったからです。仕方なく、まずは特殊なKnowledge Agent（知識エージェント）を作って、拡張できるかどうかを見てみました。私たちはタスクを個々のモジュールに分解し、これらのモジュールを人工的に設計されたロジックで連結しました。

数学の問題を解くときのように、解けない場合どうするか？具体的なケースを見つけて、条件を追加します。例えば、関数解析の問題があれば、まずそれを二次元空間に変え、二次元空間で証明できれば、三次元空間で証明できるかを見ます。二次元、三次元の両方で証明できたら、その中に共通性があるか、高次元に拡張できるかを見ます。

R1が驚異的だった点は、直接高次元に到達したことです。よりエキサイティングだと思うのは、深層思考を通じて新しい知識を創造することです。しかし、これはR1ではまだ達成できません。なぜなら、思考プロセスが正しいことを保証する方法がないからです。私たちの推論プロセスが必ず正しいことを保証する方法もまだありませんが、これは非常に重要な問題だと思います。

その後、CodePlanを探索し、コードを用いてまず計画を立ててから推論するという方法を試みました。ただし、完成後、リソースの制約により、その効果が最適であることを検証できませんでした。今年の初めにDeepSeekチームが行った研究も、まずコードで計画を立て、その後にコードを自然言語に変換するというものです。これは、純粋なコードの効果があまり良くなかったためだと推測しています。

最近、私たちはPromptCoTを開発し、深層思考を問題生成に適用しようと試み、非常に驚異的な効果を確認しました。7Bの小さなモデルでも32Bモデルと匹敵する性能を示しました。最も重要なのは、この研究が、他のタスクにおける深層思考の可能性を示してくれたことです。

実際、皆が考えているのは、次世代の推論モデルがどのようなものであるべきか、そして同時に知能の限界を追求したいということです。この二つの目標はどちらも非常に困難であり、特に企業にとってはそうです。企業では、「非常に大きな目標があり、多額の資金を投入するが、その目標を達成できるかどうかは不確定だ」ということはあまり言えません。合理的に言えば、探求を続ける信念を支えるためには、より多くのケースが必要です。

「AI科技評論」の許可なく、ウェブページ、フォーラム、コミュニティでのいかなる方法での転載も固く禁じます！

公式アカウントからの転載は、「AI科技評論」のバックグラウンドで許可を得てから行ってください。転載時には出典を明記し、本公式アカウントの名刺を挿入してください。

なぜ中国にはDeepSeekが一つしかないのか？

基盤大規模モデル「六進二」：南は階跃、北は智谱

旷视の13年間の振り返り：ハイライト、谷底、そして再生

Ant Group 武威：次世代「推論」モデルパラダイム大予想

短いURLをシェア