AI推論が7.5倍に急増!NVIDIA Rubin CPXがAI収益効率を再定義、1億ドルの投資で50億ドルのリターン

9月9日、AI業界は再びあの男によって大きく揺さぶられました。そうです、「革ジャン」ことNVIDIAの創業者兼CEO、ジェンスン・フアン氏です。AIインフラサミット(AI Infra Summit)で、フアン氏は笑顔でさりげなく、Rubin CPXと名付けられた新しいカテゴリのGPUを発表しました。

画像

これまでAIを使う際、文脈が少し長くなると支離滅裂になり、ウィンドウを再起動せざるを得ませんでした。現在、AIは「エージェント」の方向へと猛進しており、多段階の推論能力、永続的な記憶、そして想像を絶する超長文脈を処理する能力が求められています。AIに数百万行のコードを含むソフトウェアプロジェクトを分析させたり、完全な映画を直接生成させたりすることを想像してみてください。その裏で処理されるデータ量、いわゆるトークンは天文学的な数字になります。従来のGPUはこのようなタスクに直面すると、短距離走者がマラソンを走るようなもので、計算能力が不足するか、メモリ帯域幅が追いつかず、多くのボトルネックに頭を悩ませてきました。

今回発表されたRubin CPX、正式名称Rubinコンテキスト処理ユニット(Rubin Context Processing Unit)は、まさにこの「マラソン」の課題を解決するために誕生しました。直接コンテキストウィンドウを100万トークン以上に拡張し、さらに画期的な「分離推論」(disaggregated inference)という新しいアプローチを導入しました。簡単に言えば、AI推論という大きなタスクを2つのステップに分割し、それぞれを専門とする「特化型」プロセッサに実行させることで、効率が飛躍的に向上します。計算能力は最大7.5倍に、投資対効果(ROI)は驚異的な30倍から50倍に達します。

フアン氏は発表会で次のように述べています。「Vera Rubinプラットフォームは、AIコンピューティングの最前線における新たな飛躍を告げるものです。次世代Rubin GPUの導入だけでなく、CPXという新しいプロセッサカテゴリも提供します。」さらに彼は付け加えました。「RTXがグラフィックスと物理AIを根本的に変革したように、Rubin CPXは、モデルが数百万のトークン知識に対して一度に推論できる大規模コンテキストAIのために特別に設計された最初のCUDA GPUです。」

これほど大きな主張ですが、一体どのようにしてそれを実現したのでしょうか?この「新しい核弾頭」は具体的にどのような威力を持っているのでしょうか?

専門的なGPUに専門的なタスクを任せる

まず、AI推論における2つの大きな課題について話しましょう。これまでのAI推論は、料理人が野菜を洗う、切る、炒めるというすべての作業を一人で行うようなものでした。「トマトと卵の炒め物」のような簡単なタスクであれば問題ありませんが、今は「佛跳牆」レベルの高級料理、つまり超長文脈タスクをこなす必要があります。モデルはまず、大量の入力データを理解するための「下準備」、つまりコンテキストフェーズに多くの時間を費やす必要があります。この段階は計算集約型(compute-bound)であり、極めて多くの計算リソースを消費します。材料が準備できたら、「調理」フェーズ、つまりトークンを一つずつ生成する段階に入ります。これは生成フェーズ(generation phase)と呼ばれ、提供速度が極めて重要であり、メモリ帯域幅が厳しく試されるメモリ帯域幅集約型(memory bandwidth-bound)です。

画像

例えば1時間の動画生成を例にとると、AIモデルはこの1時間の動画コンテンツを約100万トークンにエンコードする必要があります。最初の段階では、従来のGPUは「下準備」だけで疲れ果ててしまい、計算能力不足により高い遅延が発生します。第2段階では、「提供チャネル」が狭すぎる、つまりメモリ帯域幅が不足しているため、生成されたコンテンツを効率的に出力できません。

NVIDIAの「分離推論」アーキテクチャは、キッチンをアップグレードし、2人のマスターシェフを雇うようなものです。1人はRubin CPX、「下準備の達人」です。絶大なパワーを持ち、コンテキストフェーズの処理を専門とし、どれだけの入力データがあろうと、超高計算能力で完璧に処理します。もう1人は標準のRubin GPU、「調理と提供の達人」です。超高速な高帯域幅メモリ(HBM4)を搭載し、生成フェーズで結果を効率的に「ビュンビュン」出力することに特化しています。

このように分業することで、2人のマスターシェフはそれぞれの役割を果たし、最も得意な分野で全力を発揮します。リソースの無駄遣い?そんなものはありません。そして、2人のマスターシェフが完璧に連携できるよう、NVIDIAは「裏方総責任者」であるDynamoプラットフォームを配しました。これは、重要なKVキャッシュ、タスクルーティング、メモリ管理を調整し、2つのフェーズがスムーズに連携し、シームレスに切り替わることを保証します。

この「下準備の達人」Rubin CPX自体も強力な存在です。最新のRubinアーキテクチャに基づいたモノリシックダイ設計を採用し、最先端技術が満載です。NVFP4計算能力は30 petaFLOPSに達し、毎秒30京回の浮動小数点演算が可能で、低精度推論に特化して最適化されています。メモリには128GBのGDDR7グラフィックスメモリを採用し、コストと帯域幅の最適なバランスを見つけ、コンテキストフェーズの大規模データスループット要求を完璧に満たします。さらに驚くべきは、ハードウェアレベルのビデオデコーダーとエンコーダーを内蔵しており、長尺のビデオストリームを直接処理できるため、多くの前処理の手間が省けます。中核となるアテンションメカニズムの計算速度は、前世代のフラッグシップGB300 NVL72と比較してなんと3倍も高速です。

圧倒的なハードウェアで新境地を開く、そのパラメータは桁外れ

もちろん、1つのCPXがどんなに強力でも、それは単独での戦いに過ぎません。NVIDIAの伝統芸は「チーム戦」です。Rubin CPXはNVIDIA Vera Rubin NVL144 CPXプラットフォームの中核をなす戦力です。このプラットフォームは、簡単に言えば、最高級のハードウェアが詰め込まれたラックであり、単一ラックのAIスーパーコンピュータと言えるでしょう。その構成リストは驚くべきものです。内部には144個の「下準備の達人」Rubin CPXと144個の「調理の達人」Rubin GPUが搭載され、36個のVera CPUによってスケジューリングされます。メモリは直接100TBが提供され、総帯域幅は毎秒1.7 PB、つまり1.7京バイトに達します。NVFP4精度では、この巨大なシステムの総計算能力は恐ろしい8 exaFLOPS、つまり毎秒800京回の浮動小数点演算を達成します。

画像

これはどういうことでしょうか?この単一ラックの性能は、現在フラッグシップ製品であるGB300 NVL72の7.5倍です。CPXを搭載しないVera Rubin NVL144バージョン(3.6 exaFLOPS)と比較しても、2.2倍強力です。これらの高性能モンスターがクラスタ化され、さらに大規模な戦闘群を形成できるように、NVIDIAは2つの最高級ネットワークソリューションも提供しています。1つは超低遅延・高スループットのQuantum-X800 InfiniBandネットワーク。もう1つはイーサネットAIワークロードに最適化されたSpectrum-Xソリューションで、Spectrum-XGSスイッチとConnectX-9 SuperNICsを組み合わせ、データ転送を滞りなく保証します。

2人の「マスターシェフ」の役割分担がいかに明確であるかをより直感的に理解してもらうため、以下の表でそれらの主要パラメータを比較しました。データはNVIDIA公式とハードウェア業界の有名メディアTom's Hardwareのレポートからのものであり、信頼性は保証されています。

画像

お分かりいただけたでしょうか?Rubin CPXは、比較的入手しやすいGDDR7グラフィックスメモリを使用することで、究極の計算密度を実現し、最も手ごわいコンテキスト理解に専念します。一方、標準Rubin GPUは、極めて豪華なHBM4の超広帯域幅を武器に、迅速なコンテンツ生成に一心不乱に集中します。このような「専門特化」設計こそが、分離推論アーキテクチャの真髄であり、その強力な効率の根源なのです。

100万トークンのコンテキストは、何を変えるのか?

これまでに多くの技術について話してきましたが、この100万トークンのコンテキストが私たちの生活にどのような具体的な変化をもたらすのか、疑問に思う人もいるかもしれません。良い質問です。その変化は計り知れません。

ソフトウェア開発分野では、おなじみのGitHub CopilotのようなAIプログラミングアシスタントは、以前は単一ファイル内の小さなコードスニペットの作成しか手伝えませんでした。プロジェクト全体の全体構造に対しては、基本的に「盲目」でした。しかし、Rubin CPXの超長文脈能力があれば、AIモデルはコードベース全体、関連するすべてのドキュメント、さらには長年の変更履歴を一度にすべて読み込み、「神の視点」を形成することで、プロジェクトレベルのコード分析と生成を行うことができます。

AIプログラミング会社CursorのCEO、マイケル・トゥルーエル氏もこれに興奮を隠せません。「NVIDIA Rubin CPXを活用することで、Cursorは超高速なコード生成と開発者向けインサイトを提供し、ソフトウェアの作成方法を変革できるでしょう。これは新たな生産性レベルを解き放ち、ユーザーがかつては手の届かなかったアイデアを実現することを可能にします。」

動画生成分野では、AIによる動画生成が数秒の「GIFアニメ」から長編映画へと進化しています。前述の通り、1時間の高解像度動画を生成するには約100万トークンを処理する必要があり、従来のGPUでは動画コンテンツを理解する段階で膨大な時間を要し、リアルタイムでの作成は不可能でした。

Rubin CPXの登場は、ゲームのルールを完全に変えました。統合されたハードウェアビデオコーデックにより、ビデオストリームを直接処理できるため、前処理時間を大幅に短縮します。Runway社のCEO、クリストバル・バレンスエラ氏もこれについて次のように評価しています。「動画生成は、より長いコンテキストと、より柔軟でエージェント駆動型のクリエイティブワークフローへと急速に進化しています。Rubin CPXは、これらの要求の厳しいワークロードを可能にし、より汎用性と知能の高いクリエイティブツールを構築するための、パフォーマンスにおける大きな飛躍であると私たちは考えています。これは、独立系アーティストから大手スタジオまで、クリエイターがかつてないスピード、リアリズム、そして制御をその仕事で得られることを意味します。」

真のAIエージェントが自律的な意思決定を実現するためには、長期記憶と強力な推論能力が不可欠です。AIソフトウェアエンジニアリングの自動化に特化したMagic社のCEO、エリック・スタインバーガー氏は、未来を次のように描写しています。「1億トークンのコンテキストウィンドウがあれば、私たちのモデルはファインチューニングなしで、コードベース全体、長年のインタラクション履歴、ドキュメント、ライブラリを見ることができます。これにより、ユーザーはテスト中に会話を通じてエージェントをガイドし、その環境にアクセスできるようになり、自律的なエージェント体験に近づきます。NVIDIA Rubin CPXのようなGPUを使用することで、私たちの計算ワークロードは劇的に加速されます。」

真の投資対効果こそが重要

これほど多くの性能と応用について話してきましたが、商業的価値はどうでしょうか?NVIDIA公式は、非常に驚くべき試算を発表しました。Rubin CPXをベースとしたVera Rubin NVL144 CPXプラットフォームは、「30倍から50倍の投資対効果」を実現できるとのことです。これは、顧客が1億ドルの設備投資を行うごとに、最大50億ドルのトークン収入を得られる可能性があることを意味します。

この数字は絵空事のように聞こえるかもしれませんが、その背後には論理的な根拠があります。単一ラックで8 exaFLOPSという恐ろしい計算能力は、前世代の7.5倍であり、これにより単位計算能力あたりのコストが大幅に希薄化されます。分離アーキテクチャはハードウェアリソースの使用効率を最大化し、推論スループットを数倍に直接向上させます。NVIDIAは、前述のDynamoプラットフォーム、NIMマイクロサービス、Nemotronマルチモーダルモデルなど、包括的なソフトウェアエコシステムを提供しており、これらのソフトウェアツールは展開と運用の効率をさらに最適化し、顧客が計算能力をより迅速に収益へと転換できるようにします。

フアン氏は発表会で次のようにまとめました。「Rubin CPXは、長文脈処理のパフォーマンスとトークン収入をこれまでのシステム設計限界をはるかに超える前例のない高みに引き上げます。これにより、AIプログラミングアシスタントは、単純なコード生成ツールから、大規模なソフトウェアプロジェクトを理解し最適化できる複雑なシステムへと完全に変革されます。」

もちろん、強力なハードウェアには繁栄したソフトウェアエコシステムが不可欠です。Rubin CPXの背後には、NVIDIA AI帝国全体が控えています。推論オーケストレーションを担当するNVIDIA Dynamoプラットフォームは、MLPerf性能テストで記録を樹立しています。企業向けには、トップレベルのAI推論能力を提供するNVIDIA NIMマイクロサービスがあります。さらに、600万人の開発者と6,000近いアプリケーションを持つCUDA-Xライブラリがあり、Rubin CPXのリリース直後から膨大なアプリケーションが利用できることを保証します。また、クラウド、データセンターからワークステーションまで、あらゆるシナリオでの展開をサポートする企業向けAI Enterpriseソフトウェアプラットフォームも提供されています。

Rubin CPXは、分離アーキテクチャと特定のタスクに最適化された設計により、長文脈推論の中核的な課題を正確に解決し、ソフトウェアエンジニアリング、動画作成、AIエージェントといった最先端のアプリケーションへの道を切り開きました。

Vera Rubin NVL144 CPXプラットフォームは、その驚異的な性能パラメータでAIインフラストラクチャの限界を再定義しました。

ジェンスン・フアン氏が述べたように、「Rubin CPXは大規模コンテキストAIにとってのRTXの瞬間です。」

この瞬間から、AIは「ツール」としての束縛から真に解放され、長期記憶、深い推論、そして並外れた創造力を持つインテリジェントなパートナーになり始めるかもしれません。

参考資料:

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-workloads

https://www.tomshardware.com/tech-industry/semiconductors/nvidia-rubin-cpx-forms-one-half-of-new-disaggregated-ai-inference-architecture-approach-splits-work-between-compute-and-bandwidth-optimized-chips-for-best-performance

メインタグ:AIハードウェア

サブタグ:AI推論Rubin CPXNVIDIAGPU


前の記事:ファインチューニングなしでLLM推論精度が99%に爆増!軽量推論フレームワーク「DeepConf」を試す|Meta最新

次の記事:考えれば考えるほど間違える:CoTの「深く熟考する」ことがLLMの幻覚を促進する触媒に!

短いURLをシェア