全文 4,000字 | 閱讀約 13 分鐘
(微軟 CEO 納德拉談 AI 工業革命)
2025年11月12日,美国亞特蘭大,一座兩層樓的資料中心被點亮了。
它的名字叫 Fairwater 2。表面看,就是又一棟雲端電腦房。真正特別的在地下:和遠在 700 英里之外、橫跨 5 個州的威斯康星 Fairwater 機房,用高速光纖連成了一體。
微軟給這套系統起的名字,不是園區、不是叢集,而是:「行星級 AI 超級工廠(Planet-scale AI Superfactory)」。
它和傳統雲資料中心最大的不同,是做的事變了。普通機房服務成千上萬款應用,每個客戶分一小塊資源;AI 超級工廠做的事是一件事:讓分布各地的 GPU 像一條生產線一樣協同,去訓練和運行下一代 AI 大模型。
一天後的訪談中,微軟 CEO 納德拉(Satya Nadella)給出了他對這件事的定性:這是一場工業革命。
如果說精益生產重新定義了製造業,那么 AI 正在重新定義知識工作。
而這一次革命的起點,不是再多發布一個殺手級應用,而是先把這一代的電廠和工廠建出來。
超級工廠,才是 AI 的真正起點。
第一節 | 不是模型,是工廠:微軟AI戰略換道
在大多数公司还在争夺谁的模型更强时,访谈中,納德拉的關注點不同:
我們真正關注的,是整個經濟格局的底層。
所謂底層,不是指模型能力本身,而是支撐整個 AI 系統長期運轉的基礎層:電力調度、GPU 叢集、帶寬網路、資料中心選址、推理架構設計。微軟不再把AI当成單一產品,而是視作一項系統工程。
✅ 這套工廠有多大規模?
(Fairwater 2 宣傳影片:微軟正打造世界上第一個 AI 超級工廠)
亞特蘭大 Fairwater 2 資料中心擁有 500 萬個網路連接,其網路光纜數量相當於兩年半前微軟所有 Azure 資料中心的總和。它的訓練能力比 GPT-5 所需提高了 10 倍。微軟的目標是每 18 到 24 個月將訓練能力提升 10 倍。
更關鍵的是連接方式。透過 1 Petabit 的高速網路,Fairwater 2 與威斯康星州密爾瓦基的資料中心相連。兩地相隔 700 英里,跨越 5 個州,卻在系統中被當作同一台機器調度。
站在吵鬧的資料中心裡,納德拉開了個玩笑:我說我經營一家軟體公司,歡迎來到這家軟體公司。
這個玩笑背後是一個轉折:微軟曾經是典型的軟體公司,靠 Windows 和 Office 的授權許可賺取高利潤。而現在,他們正在建造的是數吉瓦的資料中心、數十萬塊 GPU 叢集、跨越數千英里的高速光纖網路。
這不只是投資規模的變化。納德拉後來說:微軟現在是一個資本密集型業務和一個知識密集型業務。
✅ 不是堆 GPU,是建系統
但微軟並不是要變成一家硬體公司,而是在用一種新的方式做 AI。
納德拉很清楚:我們不能靠某一次模型領先來建立護城河,而要建立一個系統,讓我們能持續不斷地為使用者提供推理服務。
換句話說,模型只是 AI 經濟中的中游工藝,真正決定長期價值的,是 token 的生成、調度和穩定供給能力。
關鍵是不被某一代硬體鎖定。
要構建在 AI 所有階段都表現出色的 Azure,就需要設計一個能夠靈活適應硬體迭代的架構。當 GB200 推出時能快速部署,當 GB300 到來時不會被上一代設施拖累,當 Vera Rubin Ultra 帶來完全不同的功率密度和散熱需求時,整個系統依然能夠快速適應。
這就是微軟現在的思路:不是做某一個功能強大的 AI,而是打造一個持續、可復用、具備全球交付能力的智能工廠體系。
✅ 支撐工廠運轉架構
微軟內部將這套邏輯稱為 AI 工廠三層架構:
• 訓練層:為 GPT-5 及後續模型準備 GPU 計算資源
• 推理層:確保全球響應速度,實時服務 Copilot
• 介面層:將 AI 能力嵌入開發、辦公、搜尋等日常場景
在 Fairwater 2 資料中心的建設現場,微軟雲與 AI 執行副總裁 Scott Guthrie 明確表示:「未來不是某一家模型贏了就結束,而是誰能把 token 的生成、推理、交付做成閉環系統。」
這就是他們的 AI 工業革命:不在模型層競爭,而是從工廠開始重建整個底層系統。
第二節 | 資料中心,不再是雲倉庫,而是AI發電站
過去,資料中心是用來存檔案、處理雲端運算任務的。在大多數企業眼裡,它們更像倉庫:穩定、可擴展,價格可控。
但在納德拉看來,這套定義已經徹底過時。
傳統的資料中心是為雲端設計的,我們現在做的,是為 AI 重建整個資料中心。
這不是簡單地增加幾台伺服器,而是從根本上改變它的功能和結構。Scott Guthrie 在訪談中給出了一個更精準的定位:我們要把資料中心變成一座座 AI 發電廠。
✅ 為什麼是發電廠?
AI 不只是用來訓練模型,還要每天、大規模地為使用者提供推理服務。這對資料中心的要求完全變了:
• 要能持續輸出 token,就像電廠持續發電
• 要在全球範圍內快速響應,就像電網調度電力
• 要具備低延遲、高吞吐、精準調度的能力
這要求微軟重建一整套架構:不是一台台伺服器堆起來的雲倉庫,而是具備供給能力的 AI 工廠。
✅ 資料中心核心部件的重構
Guthrie 提到,微軟正在為 AI 資料中心重構四個核心部件:
1. 晶片部署邏輯 - 原先為儲存優化,現在為推理和訓練優化
2. 液冷系統 - 為降低能耗和熱負荷,引入更先進的冷卻技術
3. 網路連接結構 - 過去面向 API,現在要服務全球數十億請求
4. 選址邏輯 - 從靠近客戶轉向靠近清潔能源和穩定電力供給
而這些部件的設計,必須能夠適應硬體的快速迭代。他引用了英偉達 CEO 黃仁勳給的建議:以光速執行。
什麼叫光速?
亞特蘭大 Fairwater 2 資料中心從獲得到交付給真正的工作負載,用了大約 90 天。這就是微軟要在每一代硬體上達到的執行速度。
✅ AI 工作負載的完整生態
這些工廠不是一兩處部署,而是分布在全球各地。
但更重要的是,微軟意識到一個關鍵點:每個 AI 工作負載不僅需要 AI 加速器,它還需要很多其他東西。事實上,微軟大部分的利潤結構將存在於那些其他東西中。
什麼其他東西?儲存系統、資料庫、身份管理、可觀察性工具。AI 推理只是冰山一角,真正的工作負載需要完整的雲服務支撐。
這也解釋了為什麼微軟必須考慮資料駐留法和歐盟資料邊界。你不能只是把一個調用往返到任何地方,即使它是異步的。因此需要一些區域性的高密度設施,同時兼顧電力成本和監管要求。
納德拉強調:我們要構建的是一張全球 AI 電網,支持不同地區、不同時區的 Copilot 實時運行。
微軟重構資料中心,不是為了比別人更快上線一個模型,而是為了構建一張真正可用、可控、可盈利的 AI 基礎設施。
但發電廠建好了,接下來是電網。
第三節 | AI-WAN:微軟要造的,是全球token網路
一張看不見的電網。
這張電網,有個微軟內部的稱呼:AI-WAN(AI 廣域網路)。
不像傳統雲服務按區域隔離,AI-WAN 要求不同資料中心之間聯動更緊密,實現智能調度。比如,當亞洲負載高峰時,可以從美國或南美的空閒資源中調動算力,就像電力可以跨洲調配。
這套系統的目標根本目的:讓每一条使用者指令,都能立刻獲得所需的 AI 算力響應。
但為什麼需要這樣的跨資料中心調度?
✅ 模型並行性+資料並行性
納德拉在訪談中透露了一個關鍵設計:你們可以看到模型並行性和資料並行性。它基本上是為園區內的訓練任務、這些超級系統而建。然後透過 WAN,你可以連接到威斯康星州的資料中心,再聚合所有資源來運行一個訓練任務。
這意味著什麼?
意味著 Fairwater 2 和 Fairwater 4 透過 1 Petabit 的網路連接,它們不僅可以共同完成一次大規模訓練,還能在訓練完成後立即切換為資料生成或推理服務。這些資源不會永遠只用於一種工作負載。
主持人問:隨著 AI 任務範圍的增長,30 秒用於一個推理提示,或 30 分鐘用於一個深度研究,或者數小時用於軟體代理,為什麼資料中心的位置還重要?
納德拉的回答是:
「隨著模型能力的发展和這些 token 用法的演變,無論是同步還是異步,你都不想處於不利位置。這正是我們希望思考 Azure 區域佈局和區域之間網路連接的原因。」
✅ 三層調度架構
為了實現這張 AI-WAN,微軟構建了三層調度架構:
• 園區級調度:在單個資料中心內,透過模型並行性完成高密度訓練任務
• 區域級調度:透過高速 WAN 連接,讓不同州的資料中心協同完成大規模訓練
• 全球級調度:根據工作負載類型(同步/異步)和資料法規要求,動態分配推理資源
Guthrie 補充了一個關鍵的技術細節:資料庫和儲存必須靠近計算設施。如果我有一個靠近 Fairwater 設施的 Cosmos DB 用於會話資料,甚至是用於自主事務,那麼它也必須靠近它。
這不是簡單的網路連接問題,而是整個計算-儲存-網路架構的協同設計。
✅ 從固定工作負載到流動算力
比如你用 Copilot 寫一封郵件,它要調動幾十到上百個 token。如果調度鏈路不穩定,就會卡頓,甚至失敗。微軟要解決的,是從輸入提示到返回響應之間的每一個環節。
這背後是一系列技術指標的較量:響應延遲能不能控制在毫秒級?帶寬消耗會不會在高峰期崩潰?快取命中率夠不夠高,能不能避免重複計算?
這些技術細節的疊加,決定了一件事:AI 能不能像水電一樣穩定供應。
納德拉的表達更直接:我們正在建一張新的供應網路,它供應的是推理能力。
這意味著,token 變成了一種新的商品,也是一種新的生產資料。而微軟要做的,就是掌握這套 AI 算力的全球分發系統。
等到真正普及的時候,使用者甚至不會知道背後發生了什麼。他們只會感受到一句話剛打完,結果已經出來了。
從這個角度看,AI 基礎設施的成功標準只有一個:使用者無感知,但系統無處不在。
第四節 | 微軟為什麼在2023年踩了一腳煞車?
宏偉的 AI-WAN 藍圖,Fairwater 2 的順利上線,這一切看起來都在按計劃推進。
但實際上,微軟在這條路上並非一路狂奔。
2023 年下半年,就在 AI 基礎設施競賽最激烈的时候,微軟做了一個讓市場意外的決定:暫停了一批原本計劃租賃的資料中心站點。
為什麼在競爭最激烈的时候踩煞車?
✅ 不做某一家公司的主機託管商
納德拉給出的第一個理由很直接:我們不想僅僅成為一家公司的主機託管商,並且只有一個客戶的大量業務。那不是一個業務。
這句話直指 Oracle 模式。Oracle 透過承接大型 AI 實驗室的主機需求,從微軟五分之一的規模增長到 2027 年底可能超過微軟。雖然 Oracle 的毛利率達到 35%,但納德拉認為:為一家模型公司提供主機託管服務,而且合約期有限,這對我們來說沒有意義。
任何具有大規模的公司,最終都將自己成為一個超大規模廠商。
所以微軟要構建的是一個能服務長尾客戶的超大規模服務網路,而不是少數幾個大客戶的裸機供應商。
✅ 用軟體優化對抗硬體成本
微軟的資本支出在兩年內翻了三倍。其他超大規模廠商都在舉債建設,每個人的自由現金流都在歸零。
主持人直接問:這是什麼情況?
納德拉給出了他的答案:我們現在是一個資本密集型業務和一個知識密集型業務。事實上,我們必須使用我們的知識來提高資本支出的 ROIC(投資資本報酬率)。
什麼意思?
具體來說:對於一個給定的 GPT 系列,我們在吞吐量方面,即每瓦特每美元的 token 數量,透過軟體改進每個季度、每年都在大規模增長。在某些情況下是 5 倍、10 倍,也許是 40 倍。
這就是知識密集度帶來的資本效率。
硬體廠商在行銷摩爾定律,微軟在用軟體優化對抗硬體成本。一個經典的託管商和一個超大規模廠商有什麼區別?軟體。
✅ 市場份額下降不是壞事
主持人還提到了另一個的事實:GitHub Copilot 的市場份額從接近 100% 降到了 25 %以下,被 Cursor、Claude Code、Codex 追趕。
納德拉的回應出人意料:這恰恰說明市場在快速擴張。
他給出了兩個理由:
• 第一,GitHub Copilot 仍然在榜首。
• 第二,這裡列出的所有公司都是在過去兩三年內誕生的公司。
在他看來,這不是份額下降,而是市場擴張。他的邏輯很簡單:寧願在一個大市場裡占 25%,也不要在一個小市場裡占 100%。AI 程式設計市場的規模,可能比微軟以往任何高份額業務都要大得多。
而這種「市場比份額重要」的邏輯,貫穿了微軟的所有決策。
在納德拉看來,微軟做出的一系列決定,產業邏輯是非常清楚的。他們不是為了追逐某個時期的毛利率數字,而是要解決微軟可以解決的獨特業務。
這種判斷帶來幾個具體決策:
• 把部分投入當作研發費用,不強求短期回收
• 不盲目超前建設,跟著實際需求走
• 透過租賃、客製、GPU 即服務等多種方式靈活獲取算力
• 歡迎新雲服務商加入 Azure 市場,形成生態
所以,2023 年的暫停不是退縮,而是戰略調整。
微軟看似慢了下來,實際上在建一個可以持續十年的成長系統。
從資料中心到 AI-WAN,從硬體迭代到軟體優化,微軟在做的,是一場從底層重構 AI 經濟的工業革命。
而這場革命的起點,正是在這些看不見的基礎設施裡。
結語 | 這場工業革命,你站在哪一層?
微軟最真實的投入邏輯是什麼?
重建資料中心,不為儲存,而為供能;設計 AI-WAN,不為連接,而為調度;做 Copilot,不為示範,而為構建閉環。
整個戰略的核心,不是追趕模型能力,而是掌握 token 的生成、傳輸與變現。
從這個角度看,微軟不是在發布一個又一個 AI 產品,而是在悄悄鋪設一張全球智能電網。
那么,在這場圍繞 AI 展開的工業革命中,你在哪一層?
• 在應用層,盯著哪個模型更強、哪個產品更火;
• 在模型層,競爭參數規模、訓練速度;
• 還是在基礎設施層,建設資料中心、電力調度、網路架構?
納德拉給出了他的答案:關鍵不在模型強不強,而在基礎設施穩不穩。
AI 的主戰場,已經下沉到底層。
下一輪機會,就在你腳下這一層。