新智元レポート
編集:定慧
【新智元ガイド】AIモデルが数千万トークンという超長の記憶力を持ったとき、その真の実力をどう検証するか?OpenAIは新しい答えを出しました:MRCRベンチマークテストです。これは単純な「干し草の山の中の針」探しではなく、大量のテキストの中から、複数の全く同じ「針」の中から特定の1つを区別して見つけ出すことが求められる、まさに「AI界のオリンピック」とも言える難しさです。MRCRは、現在のAIの能力の限界を明らかにするだけでなく、次世代のより強力で信頼性の高いモデルの誕生を促すでしょう。
彫刻は、私が作業を開始する前であっても、大理石の塊の中で既に完成しています。
それはそこに存在しており、私は余分な材料を削り出すだけで良いのです。
――ミケランジェロ
どのようにしてそのような美しい彫刻を創造したのかと尋ねられた時、ミケランジェロは「彫刻は既に存在しており、私は余分な材料を削り出すだけだった」と述べました。
21世紀のAIモデルが非常に長い文脈を理解しようとする時、それは15世紀の彫刻家と不思議な共鳴を起こします。
「超長の文脈」はミケランジェロの手にある大理石のようなもので、AIはその本質を明らかにするために無関係な情報を削り出す必要があります。
4月15日、OpenAIがGPT4.1を発表した際、多くの人々はモデルの能力や各シリーズの「奇妙な」命名規則に関心を寄せました。
さらにOpenAIが最近リリースしたo3とo4-miniを加えると、将来的にAIチャットインターフェースを操作するのは宇宙船を操縦するのと変わらないくらい複雑になるかもしれません。
新しいモデルに加えて、OpenAIはMRCRと呼ばれる評価基準データセットも発表しました。以前のモデルの文脈能力をテストする方法が「干し草の山の中の針」探しだったとするならば、
新しいMRCR基準は、AIモデルの文脈能力に対する「オリンピック」レベルの評価です。
情報の大海原で「干し草の山の中の針」探し
「干し草の山の中の針」は翻訳されたもので、原文はThe Needle In a Haystackと呼ばれ、最も古いのはGPT-4の「時代」にまで遡ります(AIの発展があまりにも速く、前回の画期的な瞬間を時代で感じ取らなければならないことに感嘆します。実際には2023年の出来事ですが)。
これは、Greg KamradtがGPT-4の文脈能力をテストするために最初に提案したものです。
「The needle in a haystack」とは、特定の、検索したい情報(針)を超長かつ複雑なテキスト(干し草の山)に埋め込むことを指します。
AIはこの大理石(干し草の山)から美しい彫像を彫り出すことができるのでしょうか?
Greg KamradtはGPT-4の能力を評価しました。入力トークンが100kを超え、「針」となる情報が文書の10%から50%の間に埋め込まれている場合、GPT-4の「干し草の山の中の針」能力は著しく低下し始めました。
しかし、GPT4.1では、この能力が「劇的」に向上しました。どれくらい向上したのでしょうか?
上の図は、OpenAIがGPT4.1リリースと同時に公開した情報で、GPT-4.1がコンテキストウィンドウ内の異なる位置で隠された情報(「針」)を検索する能力を示しています。
横軸は入力トークンで10Kから1Mまで、縦軸は「針」の位置です。
テスト結果はすべて青色で、すべて成功しています!
GPT-4.1は、すべての位置および最大100万トークンまでのすべてのコンテキスト長で、一貫して正確に針を検索することができました。
これは何を意味するのでしょうか?つまり、GPT4.1は、その詳細が入力中のどの位置にあるかに関わらず、手元のタスクに関連するあらゆる詳細を効果的に抽出できるということです。
今の大規模モデルは、2年前の「干し草の山の中の針」を難なくこなせるようになったようです。
しかも、PGT4.1のコンテキストウィンドウは「壮大な」10M、1000万トークンに達しました!これは上記のテスト時の10倍です。
OpenAIによると、この長さのコンテキストには、完全なReactコードベースが8つ収まります。
では、モデルは本当にこれほど長いコンテキストを処理できるのでしょうか?
2年前の「干し草の山の中の針」基準は、今日の大きなモデルを効果的にテストできるのでしょうか?
究極の「かくれんぼ」ゲーム、OpenAI MRCR登場!
標準的な「干し草の山の中の針」テストは有用ですが、今日の大きなモデルにとっては少し「優しすぎる」かもしれません。
探しているのが1本の針だけではなかったら?それらの針が全て同じ形をしていたら?特定の1本の針ではなく、特定の順番の数本の針を探すように求められたら?
OpenAI MRCRの世界へようこそ――トップAI大規模モデルのために設計された究極の「かくれんぼ」ゲームです!
OpenAI MRCRはタスクの難易度を上げています。MRCR(Multi-round co-reference resolution、多段階共参照解決)は、長いコンテキストの中に隠された複数の目標を区別する大規模言語モデルの能力を評価するために使用されるデータセットです。
MRCRデータセットは、「干し草の山の中の針」の難易度を全く新しいレベルに引き上げました。OpenAIが提供する例を見てみましょう。
タスクは、ユーザーとモデルの間で行われた長い会話が与えられます。例えば、「バク」についての詩を最初に書き、次に「岩」についての詩を書き、それから再び「バク」についての詩を書く、といったように、このコンテキストの難易度を高めます。
最後の要求は、「aYooSG8CQg」を2番目の「バク」についての詩の前に加えることです。
このテストは非常に挑戦的です。なぜなら:
刺激項目(針:aYooSG8CQg)と干渉項目(干し草の山:長い会話コンテキスト)は同じ分布から来ています。
AIアシスタントの回答は全てgpt4oによって生成されるため、刺激項目は干渉項目と混同しやすくなっています。
モデルは刺激項目間の順序を区別しなければなりません:例えば、モデルはバクについての詩が何番目かを識別する必要があります。
刺激項目の数が多いほど、タスクはより困難になります。
コンテキストが長いほど、タスクの難易度も高くなります。
このテストはGPT4.1だけでなく、他の推論モデルにとってもかなり難しいものです。
MRCRはモデルが情報を「見つけられるか」をテストするだけでなく、極端な干渉下で、ターゲット情報を正確に、頑健に、そして区別して特定できるかを試すものです。
これは、非常に騒がしい環境で、特定の人物の特定の1つの文を正確に聞き取って繰り返すようなものです。
OpenAIは、異なる難易度(異なる針の数)で、コンテキストが増大するにつれてモデルの精度が急速に低下することも示しました。
例えば、2本の針の場合、GPT4.1、GPT4.1-mini、そしてGPT4.1 nanoの精度は同時に低下します。
4本と8本の針の場合、コンテキストが十分に大きいと、GPT4.1 miniの精度がGPT4.1をわずかに上回ることさえありました。
この「厳格な」テストでは、モデルが大きいほど良いとは限らないのかもしれません。
AIの「試験」は終わりなき
GPT3.5の簡単な質疑応答からDeepSeek-R1、OpenAI-o1の複雑な推論まで、基礎的な言語理解から極限の「干し草の山の中の針」探し、そしてより厳格なMRCRまで、AI大規模モデルのベンチマークテストは終わりなき「試験」のようなものです。
OpenAI-MRCRのような革新的なベンチマークは、これらの賢いAIモデルに新しい、より難しい課題を絶えず設定しています。
これらのテスト基準自体が目的ではありません。その真の価値は以下の点にあります:
能力の限界を明らかにする:現在のAIの能力がどこにあるのかをより明確に認識することができます。
技術進歩を推進する:研究者たちが、より強力で、より信頼性が高く、現実世界の複雑さにより対応できるAIモデルを開発することを奨励します。
慎重な応用を促進する:モデルの長所と短所を理解することで、この強力な技術をより責任を持って、より効果的に使用することができます。
GPT4.1は既に10Mのコンテキストから重要な情報を見つけることができます。将来のAI大規模モデルの能力の上限はどこにあるのでしょうか?
AIの未来は無限の可能性に満ちており、これらの厳格なベンチマークテストは、前進の道を照らし、AIモデルを着実に導く「灯台」なのです。
参考文献:
https://huggingface.co/datasets/openai/mrcr
https://openai.com/index/gpt-4-1/