新智元レポート 編集:海狸
【新智元概要】大規模言語モデル(LLM)は前例のない速さで進化しています。METRは、その知能が7ヶ月ごとに2倍になることを発見しました。2030年までには、1つのモデルが数ヶ月かかる人間のエンジニアの仕事をわずか数時間でこなせるようになるかもしれません。瞬きするな、あなたの仕事はすでにカウントダウンに入っているかもしれません。
大規模モデルの能力が急上昇するにつれて、様々な評価ベンチマークが次々と登場しています。
古典的なMMLU、HellaSwagから、マルチモーダルなMMMU、MathVista、さらにAGIスタイルのアリーナ対決、エージェントタスク、ツール利用テストまで。
LLMが長期間、複雑な、現実世界のタスクでどの程度の能力を持つかを科学的に測定することは極めて重要です。
今年3月、METRは画期的な研究「Measuring AI Ability to Complete Long Tasks」を発表し、目を引く新しい指標を初めて提案しました。
50%タスク完了時間視野(50%-task-completion time horizon) — つまり、AIが50%の成功率で完了できるタスクに、人間は通常どれくらいの時間を費やすのか?
論文リンク:https://arxiv.org/pdf/2503.14499
これに基づき、METRはタスクの複雑さ設定、人間のベースライン時間測定、複数モデル比較実験から階層的な統計回帰モデリングまで、一連の研究を行いました。
最終的に、チームはAI知能の進化速度を正確に定量化し、驚くべき予測を打ち出しました。
現在の成長速度に従うと、5年後には、大規模モデルは、人間が数ヶ月かかる複雑なタスクを、1日で自動的に完了できるようになる可能性があります。
瞬きするな、LLMは7ヶ月ごとに能力が倍増!
METRチームは、各期間で最強のモデルを選び、正確な「年表」を作成し、モデルの能力が時間とともにどのように成長するかを定量的に分析しました。
結果は明確な指数関数的成長トレンドを示しています。過去6年間で、モデルの能力は7ヶ月ごとに2倍になりました。
グラフの陰影部分は、タスクファミリー、タスク、およびタスク試行間の階層的ブートストラップ(hierarchical bootstrap)を通じて計算された95%の信頼区間を示しています。
ただし、この指数関数的成長トレンドは非常に急峻であるため、誤差に対する高い許容度があります。
絶対測定誤差が10倍に達したとしても、能力が到来する時期はせいぜい約2年しか変わりません。
したがって、チームの異なる能力が出現する時期に関する予測は、基本的に間違いないでしょう。
モデル対人間:「人間の所要時間」で大規模モデルの知能を測定
METRのこの研究の核心は、彼らが提案した指標:「タスク完了時間視野」(task-completion time horizon)です。
この指標は、タスクを個別に完了する人間とAIにマッピングを追加するようなものです。
様々な異なるタスクのセットを想像してください。人間がこれらのタスクを完了するのにそれぞれ異なる時間が必要とします。
これらのタスクをAIモデルに実行させ、AIが50%の成功率で完了できるタスクのカテゴリーを見つけ出します(AIが費やす時間は考慮しません)。
そして、人間がこのカテゴリーのタスクを完了するのに通常どれくらいの時間を要するかを対応して調べます。
この人間が必要とする時間が、そのモデルの50%-task-completion time horizon、すなわち「タスク完了時間視野」です。
このベンチマークの有効性を証明するために、METRチームは詳細な統計分析を行いました。
結果は、人間が特定のタスクを完了するのに必要なベースライン時間と、そのタスクにおける各モデルの平均成功率との間に負の相関関係が存在することを示しています。
簡単に言えば、人間が遅いほど、モデルは失敗しやすくなります。
さらに、指数モデルでこの負の相関トレンドをフィッティングすると、非常に良好な結果が得られます。
モデルの成功率を人間の完了時間の対数に対して回帰分析すると、R²は約0.83、相関係数は0.91となり、これは異なるモデル間の平均成功率の相関係数よりも高い値です。
したがって、「人間の時間でタスクの難易度を測る」というこの指標は非常に合理的です。
新しいモデルほど、タスクは難しい:能力進化には痕跡がある
この指標の有効性が証明されたところで、次に各モデルのこの指標におけるパフォーマンスを見ていきましょう。
チームはさらに、異なるモデルが完了できるタスクに対応する人間の所要時間を検証しました。
結果は直感と非常によく一致しています。
2023年以前のモデル(GPT-2やGPT-3など)は、数行の文章を書くだけの簡単なタスクしか完了できませんでした。
一方、人間が1分以上かかるタスクでは、それらはすぐに失敗しました。
対照的に、最新の最先端モデル(Claude 3.5 Sonnetやo1など)は、人間が数時間かかるタスクを完了でき、さらには10時間以上にわたる超長時間のタスクでも一定の成功率を維持できます。
人間を圧倒する効率:2030年の警告が発令された
「7ヶ月ごとに2倍」というこの速度で進むと、METRチームは驚くべき結論に達しました。
2030年までに、最先端のLLMは、週40時間働く人間のエンジニアが1ヶ月かかるタスクを、50%の信頼性で完了できるようになることが期待されます。
さらに恐ろしいことに、LLMの速度は人間をはるかに上回るかもしれません。おそらく数日、あるいは数時間で。
2030年までには、LLMは簡単に会社を立ち上げたり、まともな小説を書いたり、既存の大規模モデルを大幅に改善したりできるようになっているかもしれません。
AI研究者のザック・スタイン=パールマンはブログで、このような能力を持つLLMの出現は「潜在的な利益と潜在的なリスクの両方において、大きな影響をもたらすだろう」と述べています。
キンニメントは、LLMの能力が倍増する速度はSF映画の災害の序曲のように恐ろしいと認めています。
しかし彼女は、現実にはこの進展に影響を与え、遅らせる多くの要因があるかもしれないとも述べています。
AIがどれほど賢くても、ハードウェアやロボット技術などのボトルネックによって制約を受ける可能性があります。
参考文献:https://spectrum.ieee.org/large-language-model-performance