9月9日,AI 業界再次因那位男人而沸騰。沒錯,指的就是「皮衣刀客」,NVIDIA 的創辦人兼執行長黃仁勳。在 AI 基礎設施高峰會(AI Infra Summit)上,黃仁勳先生面帶微笑,雲淡風輕地發表了一款名為 Rubin CPX 的新型 GPU。
以往我們在使用 AI 時,只要上下文稍微長一些,它便會開始語無倫次,不得不重新開啟視窗。現今,AI 正朝著「智慧代理人」的方向快速發展,它必須具備多步驟推論能力、持久的記憶力,並且能夠處理超乎想像的超長上下文。試想,讓 AI 協助您分析一個包含數百萬行程式碼的軟體專案,或是直接生成一部完整的電影,這背後所需的資料量,也就是所謂的 token,簡直是天文數字。傳統 GPU 在這類任務面前,就像讓一位短跑冠軍去跑馬拉松,不是運算能力不足,就是記憶體頻寬跟不上,諸多瓶頸令人非常困擾。
而這次發表的 Rubin CPX,全名為 Rubin 上下文處理單元(Rubin Context Processing Unit),正是為了解決這個「馬拉松」難題而生。它直接將上下文視窗擴展到 100 萬個 token 以上,更厲害的是,它帶來了一套全新的運作模式,稱為「解耦推論」(disaggregated inference)。簡單來說,就是將 AI 推論這項大工程拆分成兩個步驟,讓兩個「偏科生」來執行,結果效率直接飆升,運算能力最高提升 7.5 倍,投資報酬率(ROI)更是達到驚人的 30 到 50 倍。
黃仁勳先生在發表會上是這麼說的:「Vera Rubin 平台將標誌著 AI 運算前沿的又一次飛躍——它既引入了下一代 Rubin GPU,也帶來了一個名為 CPX 的全新處理器類別。」他還補充道:「就像 RTX 徹底改變了圖形與物理 AI 一樣,Rubin CPX 是第一款專為大規模上下文 AI 打造的 CUDA GPU,在這種 AI 中,模型可以一次性在數百萬 token 的知識上進行推論。」
這牛皮吹得這麼大,它到底是如何做到的?這顆「新核彈」究竟威力何在?
讓專業 GPU 處理專業任務
我們先來聊聊 AI 推論的兩大挑戰。以前的 AI 推論,好比一位廚師,從洗菜、切菜到下鍋爆炒,所有工作都自己一個人完成。這在處理「番茄炒蛋」這種簡單任務時沒問題,但現在要做的是「佛跳牆」等級的大菜,也就是那些超長上下文任務。模型需要先花大量時間「備料」,也就是理解海量的輸入資料,這個階段稱為上下文階段(context phase),它極其消耗運算資源,屬於運算密集型(compute-bound)。食材備妥後,就進入「烹飪」階段,也就是一個 token 一個 token 地生成輸出,這個稱為生成階段(generation phase),它對上菜速度要求極高,極其考驗記憶體頻寬,屬於記憶體頻寬密集型(memory bandwidth-bound)。
就拿生成一小時影片來舉例,AI 模型得先將這一小時的影片內容,編碼成大約 100 萬個 token。在第一階段,傳統 GPU 光是「備料」就得累個半死,因為運算能力不足,導致延遲很高;到了第二階段,又因為「上菜通道」太窄,也就是記憶體頻寬不夠,無法高效地將生成的內容呈現出來。
NVIDIA 的「解耦推論」架構,就是將廚房升級了,聘請了兩位大廚。一位是 Rubin CPX,這位是「備料大師」,力大無窮,專門負責處理上下文階段,管你輸入資料有多少,它都能用超高運算能力給您安排得明明白白。另一位是標準的 Rubin GPU,這位是「烹飪兼上菜大師」,它配備了超高速的高頻寬記憶體(HBM4),專門負責在生成階段高效地「biu biu biu」地輸出結果。
這麼一分工,兩位大廚各司其職,在自己最擅長的領域火力全開,資源浪費?不存在的。而為了讓兩位大廚配合得天衣無縫,NVIDIA 還派了個「後廚總管」——Dynamo 平台,它負責協調關鍵的 KV 快取、任務路由和記憶體管理,確保兩個階段流暢銜接,無縫切換。
這位「備料大師」Rubin CPX,本身也是個狠角色。它採用了單晶片(monolithic die)設計,基於最新的 Rubin 架構,身上全是黑科技。它擁有高達 30 petaFLOPS 的 NVFP4 運算能力,也就是每秒能進行 30 千兆兆次浮點運算,專門為低精度推論做了最佳化。記憶體用的是 128GB 的 GDDR7 顯示記憶體,在成本和頻寬之間找到了一個絕佳的平衡點,完美滿足上下文階段的大資料吞吐需求。更絕的是,它還內建了硬體級的影片解碼器和編碼器,可以直接處理長影片串流,省去了很多預處理的麻煩。在核心的注意力機制運算上,它的速度比上一代旗艦 GB300 NVL72 快了整整 3 倍。
堆疊硬體達到全新境界,這參數簡直不可思議
當然,一個 CPX 再厲害也只是一個人在戰鬥,NVIDIA 的傳統絕活是「組團開黑」。Rubin CPX 是 NVIDIA Vera Rubin NVL144 CPX 平台的核心戰力。這個平台,說白了就是一個塞滿了頂級硬體的機架,堪稱單機架裡的 AI 超級電腦。它的配置單列出來,能嚇人一跳:裡面塞了 144 顆「備料大師」Rubin CPX,還有 144 顆「烹飪大師」Rubin GPU,由 36 顆 Vera CPU 負責調度。記憶體直接給到 100TB,總頻寬高達每秒 1.7 PB,也就是 1.7 千兆兆位元組。在 NVFP4 精度下,這個大家伙的總運算能力達到了恐怖的 8 exaFLOPS,也就是每秒 80 億億次浮點運算。
這是什麼概念?這個單機架的效能,是我們當前看到的旗艦產品 GB300 NVL72 的 7.5 倍。就算跟同樣不帶 CPX 的 Vera Rubin NVL144 版本(3.6 exaFLOPS)相比,也強了 2.2 倍。為了讓這些效能猛獸能夠叢集化,形成更龐大的戰鬥群,NVIDIA 還提供了兩種頂級網路方案:一個是超低延遲、高吞吐量的 Quantum-X800 InfiniBand 網路;另一個是專為乙太網路 AI 負載最佳化的 Spectrum-X 方案,搭配 Spectrum-XGS 交換機和 ConnectX-9 SuperNICs 網卡,確保資料傳輸暢通無阻。
為了讓大家更直觀地感受到兩位「大廚」的分工有多明確,下面這個表格對比了它們的核心參數,資料都來自 NVIDIA 官方和硬體圈知名媒體 Tom's Hardware 的報導,保證屬實。
看明白了吧?Rubin CPX 用相對親民的 GDDR7 顯示記憶體,換來了極致的運算密度,專心搞定最難啃的上下文理解。而標準 Rubin GPU 則憑藉極其奢華的 HBM4 超大頻寬,心無旁騖地專注於快速生成內容。這種「術業有專攻」的設計,正是解耦推論架構的精髓所在,也是它強大效率的根源。
百萬 token 上下文,到底能改變什麼?
說了這麼多技術,可能有人會問,這百萬 token 上下文到底能給我們的生活帶來什麼實際變化?問得好,這變化可太大了。
軟體開發領域,AI 程式設計助手,例如大家熟悉的 GitHub Copilot,以前只能幫助您撰寫單一檔案裡的小程式碼片段,對整個專案的宏觀結構基本是「睜眼瞎」。但有了 Rubin CPX 的超長上下文能力,AI 模型可以直接將整個程式碼庫、所有相關文件、甚至多年的修改歷史記錄一口氣全讀進去,形成一個「上帝視角」,從而進行專案級的程式碼分析和生成。
AI 程式設計公司 Cursor 的首席執行長 Michael Truell 就對此興奮不已:「藉助 NVIDIA Rubin CPX,Cursor 將能夠提供閃電般的程式碼生成和開發者洞察,從而改變軟體創建的方式。這將釋放新的生產力水平,並使用戶能夠實現曾經遙不可及的想法。」
影片生成領域,AI 生成影片正在從幾秒鐘的「GIF 動畫」向著長篇電影進化。就像前面說的,生成 1 小時的高畫質影片,需要處理大約 100 萬個 token,傳統 GPU 在理解影片內容這個階段就要花掉太長時間,根本沒法做到即時創作。
Rubin CPX 的出現徹底改變了遊戲規則。它整合的硬體影片編解碼器,可以直接處理影片串流,大大縮短了預處理時間。Runway 公司的首席執行長 Cristóbal Valenzuela 對此評價道:「影片生成正迅速向更長的上下文和更靈活、由智慧代理人驅動的創作工作流發展。我們認為 Rubin CPX 是效能上的一次重大飛躍,它支援這些要求嚴苛的工作負載,以構建更通用、更智慧的創作工具。這意味著創作者——從獨立藝術家到大型工作室——都可以在他們的工作中獲得前所未有的速度、真實感和控制力。」
真正的 AI 智慧代理人要想實現自主決策,就必須擁有長期記憶和強大的推論能力。專注於 AI 軟體工程自動化的 Magic 公司,其首席執行長 Eric Steinberger 是這麼描述未來的:「透過一億 token 的上下文視窗,我們的模型可以在沒有微調的情況下,看到整個程式碼庫、多年的互動歷史、文件和函式庫。這使得使用者可以在測試時透過對話和訪問他們的環境來指導智慧代理人,讓我們更接近自主的智慧代理人體驗。使用像 NVIDIA Rubin CPX 這樣的 GPU,極大地加速了我們的運算工作負載。」
實質的投資報酬,才是硬道理
聊了這麼多效能和應用,商業價值如何?NVIDIA 官方給出了一個非常驚人的測算:基於 Rubin CPX 的 Vera Rubin NVL144 CPX 平台,能夠實現「30 到 50 倍的投資報酬率」。這意味著,客戶每投入 1 億美元的資本支出,最高可以獲得 50 億美元的 token 收入。
這個數字聽起來有點像天方夜譚,但背後是有邏輯支撐的。單機架 8 exaFLOPS 的恐怖運算能力,是上一代的 7.5 倍,這意味著單位運算能力的成本被大幅攤薄了。解耦架構讓硬體資源的使用效率達到了最大化,推論吞吐量直接提升好幾倍。NVIDIA 提供了一整套軟體生態系統,包括我們前面提到的 Dynamo 平台,還有 NIM 微服務、Nemotron 多模態模型等等,這些軟體工具進一步最佳化了佈署和維運的效率,讓客戶能更快地將運算能力轉化成收入。
黃仁勳先生在發表會上對此總結道:「Rubin CPX 讓長上下文處理的效能和 token 收入達到了前所未有的高度——遠超當今系統的設計極限。這徹底改變了 AI 程式設計助手,從簡單的程式碼生成工具,轉變為能理解並最佳化大型軟體專案的複雜系統。」
當然,強大的硬體離不開繁榮的軟體生態。Rubin CPX 背後站著的是整個 NVIDIA AI 帝國。有負責推論編排的 NVIDIA Dynamo 平台,它已經在 MLPerf 效能測試中創造了紀錄。有企業級的 NVIDIA NIM 微服務,為企業提供頂級的 AI 推論能力。還有擁有 600 萬開發者和近 6000 個應用的 CUDA-X 函式庫,保證了 Rubin CPX 一問世就有海量的應用可以執行。更有為企業量身打造的 AI Enterprise 軟體平台,支援從雲端、資料中心到工作站的全場景佈署。
Rubin CPX,透過解耦架構和為特定任務最佳化的設計,它精準地解決了長上下文推論的核心痛點,為軟體工程、影片創作和 AI 智慧代理人這些最前沿的應用鋪平了前進的道路。
Vera Rubin NVL144 CPX 平台更是用它那堪稱變態的效能參數,重新定義了 AI 基礎設施的極限。
正如黃仁勳先生所說:「Rubin CPX 是大規模上下文 AI 的 RTX 時刻。」
從這一刻起,AI 或許將真正擺脫「工具」的束縛,開始成為一個具備長久記憶、深度推論和非凡創造力的智慧夥伴。
參考資料: