AIの後半戦：アルゴリズムから実用性へ

ビッグデータダイジェスト編集

過去数十年間を振り返ると、AIの発展はほぼ「トップモデルと新手法」の繰り返しでした。

DeepBlueがチェスの世界チャンピオンを破り、AlphaGoが囲碁を制覇し、GPT-4があらゆる試験リストを席巻したことから、o1、R1などの新世代モデルが数学、プログラミング、ライティング、操作などのタスクを総なめにしたことまで、それぞれの歴史的なブレークスルーの背後には、トレーニング手法、モデルアーキテクチャの根本的な革新がありました。

この時期のゲームのルールはシンプルでした：より強力なトレーニング手法やモデルアーキテクチャを発明できる者がランキングを支配し、ImageNet、GLUE、MMLUなどのベンチマークで著しく向上できる者が教科書に載り、引用を獲得できました。

姚順雨氏は清華大学姚クラスを卒業し、プリンストン大学コンピュータサイエンス博士。2024年8月にOpenAIに入社し、思考の木（ToT）の著者です。

そして今、数十年にわたりAI分野を支配してきた「アルゴリズムが王」という考え方が、ついに転換期を迎えています。OpenAIの研究員である姚順雨氏は一篇の記事で述べています：事前知識と環境は、アルゴリズム自体よりもはるかに重要です。彼はこれからのAIの瞬間を「後半戦」と呼んでいます。

「AIの最初の半分は『受験教育』に非常に似ており、ベンチマークをクリアし、点数を取り、卒業することに注力しました。後半戦こそ『真の教育』であり、AIに現実世界で継続的に価値を創造させることが必要です。」

前半戦では、手法とモデルの輝きを目の当たりにしました。後半戦では、現実世界の複雑さと課題に直接向き合う必要があります。「効用問題」を解決し、AIを現実世界での価値創造者にして初めて、この試合は本当に始まったと言えます。

これは、「将来、一流のAI研究者の能力は、アルゴリズムエンジニアというよりも、プロダクトマネージャーのそれに近くなるかもしれない」と理解できます。

以下は記事の全文で、ダイジェスト編集部が原意を変えずに翻訳しました。

簡単に言えば：私たちはAIの中盤にいます。

数十年にわたり、AI分野の中核は新しい訓練手法とモデルの開発にありました。これらの努力は確かに大きなブレークスルーをもたらしました：チェスや囲碁で世界チャンピオンを破ることから、SATや司法試験でほとんどの人類を凌駕すること、そして国際数学オリンピック（IMO）や国際情報オリンピック（IOI）で金メダルを獲得することまで。

DeepBlue、AlphaGo、GPT-4、あるいはoシリーズモデルといった歴史に刻まれたマイルストーンの背後には、AI手法の根本的な革新がありました：探索、深層強化学習、モデルのスケーリング、そして推論能力です。時間の経過とともに、AIのパフォーマンスは常に向上しています。

では、今何が変わったのでしょうか？

三つの言葉で要約すると：強化学習（RL）がついに「機能するようになった」（RL finally works）のです。より正確には、強化学習がついに汎化を実現しました。

長年の探索と一連の重要な蓄積を経て、私たちはついに、言語と推論を用いて様々な強化学習タスクを解決できる効果的な汎用手法を見つけました。

考えてみてください、わずか1年前に、ほとんどのAI研究者に「ソフトウェア開発、クリエイティブライティング、IMOレベルの数学、マウスキーボード操作、さらには長文の質疑応答までこなせる汎用手法がある」と言ったら、多くの人はあなたが空想していると思うでしょう。

結局のところ、これらのタスクは非常に複雑であり、多くの研究者はその学術的なキャリアのすべてを、その中の小さな分野にしか集中しないかもしれません。

しかし今、それが本当に現実のものとなりました。

次に何が起こるでしょうか？AIの「後半戦」です。

これから、焦点を「問題を解決すること」から「問題を定義すること」に移します。この新しい段階では、単純にモデルを訓練することよりも、AIの能力をどのように評価するかがはるかに重要になります。

私たちはもはや「X問題を解決できるモデルを訓練できるか？」と問うのではなく、「具体的にAIに何をさせるべきか？そして真の進歩をどう測るべきか？」と問う必要があります。後半戦で頭角を現すには、思考方法とスキルセットをタイムリーに調整するだけでなく、徐々にプロダクトマネージャーに近づくことさえ必要になるかもしれません。

01 前半戦

AIの「前半戦」を理解するには、真の勝者を見てみましょう。

これまでに、最も影響力のあるAI論文は何だと思いますか？スタンフォードの224Nコースで小さなテストをしたのですが、結果はやはり驚くことではありませんでした：Transformer、AlexNet、GPT-3などです。

これらの論文の共通点は何でしょうか？それらはすべて、より強力なモデルを訓練できるようにする基礎的なブレークスルーをもたらしました。同時に、それらが発表できたのは、特定のベンチマークで著しい向上を達成したからです。

しかし、実際にはもっと深い共通点があります：これらの「勝者」は本質的に新しい訓練方法やモデルであり、ベンチマークや具体的なタスクではありません。最も影響力のあるベンチマークデータセットとして広く認識されているImageNetでさえ、その引用数はAlexNetの3分の1にも満たないのです。そして、手法とベンチマークの比較を見ると、この差はさらに顕著になります。

Transformerを例にとると、その主要なベンチマークはWMT’14機械翻訳タスクでした。WMT’14ワークショップ報告は約1,300回引用されていますが、Transformer論文の引用数は16万回を超えています。

これはまさにAI「前半戦」の戦い方を示しています。重心は常に新しいモデルと手法の開発にあり、評価とベンチマークは不可欠ではあるものの、常に補助的な役割を果たし、論文体系に奉仕しています。

なぜこうなったのでしょうか？大きな理由の一つは、AI開発の前半戦において、新しい手法を提案すること自体が、新しいタスクを設計することよりも難しく、より興奮を呼んだからです。バックプロパゲーションアルゴリズム、畳み込みニューラルネットワーク（AlexNet）、またはGPT-3の背後にあるTransformerのような、全く新しいアルゴリズムやモデルアーキテクチャを創造するには、極めて高い洞察力とエンジニアリング能力が必要でした。

それに対して、AIのためのタスク設計は通常はるかにシンプルです。人間がすでにしていること（翻訳、画像認識、チェスなど）を直接ベンチマークに変換するだけでよく、そこには多くの革新や技術的な難しさはありませんでした。

さらに、新しい手法はしばしば具体的なタスクよりも汎用性と適用範囲が広く、したがって価値が高いです。例えばTransformerアーキテクチャは、最初はWMT’14機械翻訳データセットでの検証にすぎませんでしたが、後にコンピュータビジョン、自然言語処理、強化学習など多くの分野で核となる推進力となり、その当初の応用シーンをはるかに超えました。

優れた新手法は、それ自体が簡潔で汎用的であるため、多くの異なるベンチマークでブレークスルーを達成でき、その影響力は自然と単一のタスクを超えます。

このパターンは数十年続き、世界を変える革新とブレークスルーを生み出し続けました。その具体的な現れが、各分野のベンチマーク成績の絶え間ない更新です。では、このゲームのルールはなぜ変化したのでしょうか？その理由は、これらのすべての革新とブレークスルーの蓄積が、「タスクを解決する」という点において、質的な飛躍と真に実行可能な「汎用的なレシピ」を私たちにもたらしたからです。

02 「汎用的なレシピ」

では、この「汎用的なレシピ」とは一体何でしょうか？実際、その核となる要素は意外ではありません：大規模な言語事前訓練、モデルとデータの究極的な拡張、そして「推論＋行動」の理念です。一見すると、これらの言葉はシリコンバレーで日々流行している専門用語と変わらないかもしれませんが、なぜそれを「レシピ」と呼ぶのでしょうか？

強化学習（RL）の観点から理解できます。強化学習はしばしばAIの「究極形態」と見なされます。結局のところ、理論上はRLは様々なゲームで勝利を保証できます。実用的な視点からは、AlphaGoのような人間を超えるシステムがRLなしで現れることは想像しがたいです。

強化学習には、アルゴリズム、環境、事前知識という3つの核となる要素があります。長い間、RL研究者の主な焦点はアルゴリズム自体（REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPOなど）に集中しており、すなわちエージェントがどのように学習するかの「知性の核」であり、環境と事前知識は通常、固定されているか、あるいは最も単純な設定と見なされていました。

例を挙げると、SuttonとBartoの古典的なRL教科書は、アルゴリズムについてのみ論じており、環境設計や事前知識の内容はほとんどありません。

しかし、深層強化学習の時代に入ると、誰もが徐々に気づきました：環境自体が最終的な結果に巨大な影響を与えることを。あるアルゴリズムの性能は、それが開発されテストされた環境に高度に依存します。環境を無視すれば、「おもちゃ」のような環境でしか優れた性能を発揮しない「最適」アルゴリズムを作り出すかもしれません。だから、まずどのような環境を解決する必要があるのかを明確にしてから、最も適したアルゴリズムを見つけるべきではないでしょうか？

Universeプロジェクト

これこそがOpenAIの当初の考え方でした。彼らはまず、様々なゲームを網羅する標準的なRL環境であるgymを立ち上げ、その後、World of BitsとUniverseプロジェクトで、インターネットやコンピュータ自体を「ゲーム環境」に変えようと試みました。この考えは素晴らしいと思いませんか？すべてのデジタル世界を操作可能な環境に変え、賢いRLアルゴリズムでそれらを解決できれば、デジタル世界のAGIは間近に迫っているように思えます。

この計画はとても良かったのですが、完全に成功しませんでした。OpenAIはこの道で確かに多くの進歩を遂げました。例えば、RLでDotaやロボットアームなどの難題を解決しました。しかし、彼らは「コンピュータの使用」や「ウェブナビゲーション」といったタスクを克服できませんでした。さらに、ある領域で学習したRLエージェントは、別の領域にほとんど転移できませんでした。明らかに、何らかの重要な要素が欠けていました。

GPT-2とGPT-3の出現まで、誰もが気づかなかったのは、不足していたのが「事前知識」だったということです。大規模な言語事前訓練で、普遍的な常識と言語知識をモデルに「蒸留」し、その後ファインチューニングを行うことで、AIはウェブエージェント（WebGPT）やチャットボット（ChatGPT）になり、最終的に世界を変えることができます。実際、RLで最も重要な部分は、アルゴリズム自体でもなく、環境自体でもなく、「事前知識」である可能性があることが証明されました。そして、これらの事前知識は、RLとは全く無関係な方法で獲得できるのです。

大規模言語事前訓練は、チャットシナリオには良い事前知識をもたらしましたが、「コンピュータの制御」や「ビデオゲームをプレイする」といった分野では、チャットに比べてはるかに効果が劣りました。

なぜでしょうか？これらの分野はインターネットテキストの分布から遠く離れており、これらのタスクに直接SFT（教師ありファインチューニング）やRLを適用しても、汎化能力が非常に低いのです。私は2019年にこの問題に気づきました。当時GPT-2がリリースされたばかりで、私はSFTとRLを使ってテキストアドベンチャーゲームCALMをプレイさせてみました。これは事前訓練言語モデルで構築された世界初のエージェントでした。モデルは単一のゲームで数百万ステップのRL訓練を経てようやく「坂を上る」ことができましたが、さらに悪いことに、新しいゲームに切り替えるとほとんど転移できませんでした。

これはまさにRLの典型的な振る舞いであり、RL研究者にとっては見慣れたことでしたが、それでも私は不思議に思いました：人間は訓練なしで新しいゲームにほとんどすぐに慣れ、すぐにうまくプレイできるようになります。これにより、私は初めて「悟り」を得ました。人間が汎化できるのは、「2番のロッカーに行け」「鍵1で箱3を開けろ」「剣でモンスターを倒せ」といった操作を機械的に実行しているだけではないからです。私たちは積極的に考えるのです。例えば、「このダンジョンは危険だ、武器が必要だ。今は武器が見当たらないから、鍵のかかった箱を探す必要があるかもしれない。箱3はロッカー2にある。だからまずそこに行って開けるべきだ。」

reasoning

「思考」や「推論」は本質的に非常に特殊な種類の「行動」です。それは外部世界を直接変えることはありませんが、推論自体の空間は開放的でほぼ無限です。

あなたは一つの単語、一つの文章、一篇の記事を考えたり、あるいはランダムに一万語の英単語を組み合わせたりすることができますが、それによって周りの世界がすぐに変わるわけではありません。古典的な強化学習理論の枠組みでは、これは非常に難しい問題であり、意思決定をほぼ不可能にします。想像してみてください、あなたは二つの箱から一つを選ばなければなりません。一つには100万ドルが入っており、もう一つは空です。期待収益は50万ドルです。しかし、無限個の空箱を追加すると、期待収益はゼロになります。

しかし、一旦「推論」をRL環境の行動空間に取り込み、言語事前訓練で獲得した事前知識を用いてAIの汎化能力を推進すると、異なる意思決定を行う際に、推論に必要な計算リソースを柔軟に割り当てることができるようになります。

これは非常に不思議なことです。正直に言うと、私自身まだその奥義を完全に整理できていませんし、後日専門の記事を書いて詳細に議論する必要があるかもしれません。もし興味があれば、ReAct論文をご覧になって、エージェント推論の起源の物語を知り、当時の私の思考とインスピレーションを感じてください。

私の直感的な理解はこうです：たとえ無数の空箱に直面しても、これまでのあらゆる経験や様々な「ゲーム」における選択と試みが経験として蓄積され、重要な瞬間に正しい決定を下すための基盤を築いています。抽象的に言えば、言語は推論を通じて、エージェントに強力な汎化能力を与えています。

適切なRL事前知識（すなわち、大規模言語事前訓練を通じて獲得した知識）と理想的なRL環境（すなわち、言語推論を行動の一部とすること）が見つかると、RLアルゴリズム自体がそれほど重要ではなくなることに気づくでしょう。そうして、oシリーズ、R1、deep research、コンピュータを使用できるエージェントといった一連のブレークスルーが生まれました。皮肉なことに、長年にわたり、RL研究者はアルゴリズムに重点を置いており、「事前知識」に注目する者はほとんどいませんでした。ほとんどすべてのRL実験はゼロから開始されました。数十年の歳月をかけて、私たちはついに、おそらく最も注目すべきだったのは、常に無視してきた部分だったと気づいたのです。

スティーブ・ジョブズが言ったように、「将来を見て点を結びつけることはできません。振り返ったときにしか、点が線になることはありません。」

03 後半戦

この「汎用的なレシピ」は、AIゲームのルールを完全に変えつつあります。前半戦の戦い方を振り返ると：

私たちは斬新な訓練手法やモデルを提案し続け、様々なベンチマークで「坂を上る」ようにブレークスルーを達成しました。

それに伴い、より難しいベンチマークを創造し、それを繰り返しました。

しかし、このゲームは「レシピ」によって破られつつあります。なぜなら、このレシピは本質的に「ランキング荒らし」を標準化され、産業化された流れ作業に変え、もはや多くの斬新なアイデアを必要としなくなったからです。指示通りにモデル、データ、計算能力を拡大するだけで、様々なタスクに効率的に汎化できます。特定のタスクのために苦心して設計した新しい手法が5%向上させたとしても、次世代のoシリーズモデルは、そのタスクのために特別に設計されたものでなくても、直接30%向上させる可能性があります。

私たちがどれだけ難しいベンチマークを設計し続けても、レシピの拡張能力は極めて強く、すぐに（そしてますます速く）これらの新しいベンチマークを攻略するでしょう。私の同僚であるJason Weiは、非常に直感的な図を用いて、この傾向を明確に示しました。

progress

では、後半戦はどう戦うのでしょうか？革新的な手法がもはや重要ではなくなり、より難しいベンチマークも「レシピ」に迅速に攻略されるなら、私たちは何をすれば良いのでしょうか？

私は、根本的に「評価」というものを考え直す必要があります。これは単に難しい新しいベンチマークを設計するだけでなく、既存の評価システムに疑問を投げかけ、全く新しい評価方法を創造することで、現在の「汎用的なレシピ」を超える新しい手法の発明を促すことです。これは実際には非常に難しいことです。なぜなら、人間には慣性があり、当たり前と思われている基本的な仮定を自ら疑問視することはめったになく、しばしば無意識のうちにそれを「自然法則」として受け入れてしまうからです。

この慣性を説明する例を挙げましょう：もしあなたが人間の試験体系に基づいて、歴史上最も成功したAI評価の一つを発明したとします。2021年には、これは極めて大胆なアイデアだったかもしれませんが、3年後にはこの考え方は極限まで使われてしまいました。どうしますか？おそらく、さらに難しい試験セットを設計するでしょう。あるいは、AIに基本的なプログラミングタスクを攻略させたとして、AIが国際情報オリンピックの金メダルレベルに達するまで、より難易度の高いプログラミング問題を探し続けるかもしれません。

この慣性は正常ですが、問題は以下の点にあります：AIはチェスや囲碁で世界チャンピオンを破り、SATや司法試験でほとんどの人類を凌駕し、さらにはIOIやIMOで金メダルを獲得しました。しかし、現実世界に目を向けると、少なくとも経済やGDPの観点からは、この世界に本質的な変化はほとんど起こっていません。

私はこれを「効用問題」（utility problem）と呼び、現在AI分野で最も重要な問題だと考えています。

おそらく私たちはすぐにこの問題を解決できるでしょうし、あるいはもっと時間がかかるかもしれません。しかし、いずれにせよ、問題の根本は驚くほどシンプルです：私たちの評価体系は、現実世界の応用環境と多くの基本的なレベルで異なっています。二つの例を挙げましょう：

1.従来のAI評価は「本来」自動化されるべきものとされています：通常、エージェントがタスク入力を受け取り、タスクを独立して完了し、報酬やスコアを獲得します。しかし現実世界では、エージェントはタスクの過程で人間と継続的にインタラクションする必要があります。例えば、カスタマーサービスの担当者に長いメッセージを送って、10分待って完璧な返答を一度にもらうことを期待することはありません。まさにこの評価仮定に疑問を投げかけたからこそ、新しいベンチマークが生まれました：実際のユーザー参加を導入するか（例：Chatbot Arena）、またはユーザーをシミュレートしてインタラクションを実現するか（例：tau-bench）です。

tau

2.評価は「本来」独立同分布（i.i.d.）であるべきものとされています：500個のタスクを含むテストセットがある場合、通常はエージェントに各タスクをそれぞれ独立して完了させ、すべてのスコアを平均して全体的な指標を得ます。しかし現実では、タスクはシーケンシャルに進むことが多く、互いに独立して同時に発生するわけではありません。例えば、Googleのソフトウェアエンジニアはコードベースに慣れるにつれて、google3の様々な問題を解決する際にますます良いパフォーマンスを発揮します。一方、AIソフトウェアエンジニアは同じリポジトリの様々な問題を解決し続けても、人間のように「慣れ」を蓄積できません。明らかに、長期記憶能力を持つ手法が必要です（実際、関連研究はすでに現れています）が、学術界にはその必要性を証明する対応するベンチマークがなく、i.i.d.仮定に疑問を投げかける勇気さえ欠けています。そしてこの仮定こそ、機械学習の基礎の一つなのです。

これらの仮定は「常にそうであるように見えた」ものであり、AIの前半戦では、これらの仮定に基づいて評価体系とベンチマークを開発することは問題ありませんでした。なぜなら、知能レベルが低いときは、単純に知能自体を向上させることが確かに効用の向上をもたらすからです。しかし現在、「汎用的なレシピ」はこれらの仮定のもとでは無敵です。したがって、後半戦のゲームのルールは以下のようになりました：

私たちは現実世界の効用を中心とした、全く新しい評価体系やタスクを開発する必要があります。

そして「汎用的なレシピ」を用いてこれらのタスクを解決するか、あるいはレシピの上に新しい革新的なコンポーネントを導入し、サイクルを推進します。

この新しいゲームは難しいです。なぜなら、それは不確実で未知なもので満ちているからです。しかし、だからこそ、それは非常にエキサイティングでもあります。前半戦のプレイヤーはビデオゲームや試験問題を解決していましたが、後半戦のプレイヤーは、知能を用いて真に役立つ製品を作り出し、数百億、数兆ドル規模の企業を築く機会があります。前半戦は様々な「微小な革新」の手法とモデルで満たされていましたが、後半戦ではこれらの革新が真に篩にかけられます。

古い仮定に従い続ける限り、「汎用的なレシピ」はあなたのわずかな改善を容易に圧倒するでしょう。しかし、古いレシピを破る新しい仮定を創造できれば、あなたはゲームのルールを真に変える研究を行う機会を得るでしょう。

AIの後半戦へようこそ！

AIの後半戦：アルゴリズムから実用性へ

短いURLをシェア