爆肝一篇部落格就拿到 OpenAI Offer！Muon 作者怒揭：幾乎所有優化器論文都是「假的」

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

不是頂尖會議論文，也沒有發表在 arXiv 上，甚至連「正式發表」都稱不上——但就是這樣一篇純部落格文章，卻讓一名研究員成功拿到了 OpenAI 的 Offer，甚至據說這篇部落格的技術還被用於 GPT-5 的訓練工作。

聽起來像是一個段子，但這位名叫 Keller Jordan 的研究員卻真實地做到了。

Keller Jordan 的這篇部落格叫做《Muon: An optimizer for hidden layers in neural networks》（https://kellerjordan.github.io/posts/muon/），其中提出了一種名為 Muon 的新優化器。

簡單來說，這篇文章既不是論文格式，也沒有同行審閱，卻因為實際測試效果出色而意外走紅。更出人意料的是，它還成了他敲開 OpenAI 大門的敲門磚。

這一消息最早由 Keller Jordan 的合作者、AI 雲端平台新創公司 Hyperbolic Labs 的共同創辦人 Yuchen Jin 在 X 上公開。

Yuchen Jin 寫道：

「很多博士（包括曾經的我）常常陷入一個誤區：認為在頂級會議上發表論文就是最終目標。

但「發表」並不等於「影響力」。

Muon 只是一篇部落格文章，卻幫助 Keller 拿到了 OpenAI 的 offer——現在他可能正在用它訓練 GPT-5。

我很感謝他把我列為第二作者。我只是用 NanoGPT 跑了些實驗，測試 Muon 在更大語言模型上的可擴展性，結果它徹底擊敗了 AdamW（曾經的優化器之王）！

這件事教會我：無論是做研究，還是生活，追求的都應該是影響力，而不是光鮮的頭銜。」

AI 產品爆發，但你的痛點解決了嗎？8 月 15-16 日北京威斯汀·全球產品經理大會 PM-Summit，3000+ AI 產品人社群已就位。直面 AI 落地難題、拆解頂尖案例、對接精準資源！

掃描 QR Code 登記資訊，加入小助手社群，搶佔 AI 產品下一波紅利：

進社群後，您將有機會獲得：

· 最新、最值得關注的 AI 產品資訊及大師洞見

· 獨家影片及文章解讀 AGI 時代的產品方法論及實戰經驗

· 不定期贈送 AI 產品實用資料和秘笈

頂尖會議論文≠有影響力

Yuchen Jin 的這番話一出，激起了不少討論。

畢竟，在學術界，頂尖會議論文幾乎是衡量一個人研究水平和職業潛力的「硬通貨」——特別是對博士來說，能否進入一流實驗室、申請教職、爭取經費，其背後有沒有在 NeurIPS、ICLR、CVPR、ACL 這類會議上掛名還是很重要的。

而 Keller 卻用一篇「非正式」的部落格文章，直接實現彎道超車，頗有些顛覆常規的意味。

其實，Keller Jordan 早在今年 2 月就公開表達過自己對這件事的態度。他在 X 上寫道，自己之所以沒有為 Muon 寫一篇正式的 arXiv 論文，是因為他根本不相信，「寫出一篇數據漂亮、圖表華麗的優化器論文」與「這個優化器實際有沒有用」之間有什麼必然聯繫。

他更看重真實訓練中的表現，「我只相信實際測試分數」。

在他看來，與其投入大量時間在格式要求繁瑣、審閱週期冗長的論文撰寫上，不如專注於實踐落地與實際效果。畢竟，一個想法從成形到論文發表，往往需要耗費數月甚至更久的時間，而當它終於問世時，極有可能會「過時」，即使發布了也可能會被淹沒在頂尖會議上一波又一波的投稿浪潮中，很少有人真正看、也很少有人真正使用。

時下，在 AI 加快各領域迭代速度之際，這種觀點並非罕見。

前 Google 研究員 Hieu Pham 對此事評論稱：

「曾幾何時，『發表論文』就等於『產生影響』。ResNet、Seq2Seq、Adam、Attention、Transformers、MoE……這些經典成果都是以論文形式出現的。但真正的問題，是我們沒有意識到這個時代已經過去了。我自己也曾犯過類似的錯誤。幸好，現在我們還有機會重新選擇。」

他補充道，就優化器而言，「業界已經有成千上萬篇關於優化器的論文發表了，但真正推動 SOTA（最佳性能）前進的，也就只有一次——從 Adam 到 AdamW。其他所謂的進步，基本上都是這兩者的改進實現，例如 FSDP。因此，我們真的應該停止再寫這類論文了。也不必引用 AdamW，大家都知道它是哪裡來的。」

同樣是博士畢業的 Yuchen Jin 也感慨學術生態的局限：「這就是學術界令人唏噓的地方。我曾有一位實驗室同伴，沒能在任何頂級的電腦系統會議上發表論文，這導致他很難拿到名校教職。但最終，他成了 Google 的副總裁。」

非常規的「硬核學霸」

如今，Keller Jordan 的經歷也給人們帶來新的啟發：原來，不寫論文，也照樣能闖進一流的頂尖實驗室。

隨著 Muon 受到越來越多研究者的關注，就在今日， Keller 繼續重申自己的觀點——「已經有上百篇關於優化器的論文發表了，但所謂的最佳性能（SOTA）也就提升了幾次而已。所以我們可以得出一個結論：幾乎所有優化器的論文都是『假的』。如果你也打算再寫一篇這樣的『假優化器』論文，拜託別引用 Muon。我不需要你的引用。」

這番言論雖然犀利，卻也反映出 Keller Jordan 對「實際效果大於學術裝飾」的堅持，以及他鮮明的個性。

打開 Keller 的履歷，他也的確是個不折不扣的「硬核學霸」。

從 LinkedIn 資料來看，Keller 曾就讀於加州大學聖克魯斯分校，主攻機器學習、數據科學等方向。而後在 UC 伯克利，主修作業系統、計算安全。而後於 2020 年以 3.94 的高績點（滿分 4）獲得美國加州大學聖地牙哥分校數學與計算機科學雙學位。

畢業後，他進入 Hive 公司，擔任機器學習工程師，隨後又作為訪問研究員（Visiting Researcher）加入維也納複雜科學研究中心（Complexity Science Hub Vienna），繼續深耕 AI 實踐。

到了 2024 年 12 月，也就是發布 Muon 不久之後，Keller 成功入職 OpenAI，以一種幾乎「逆學術常規」的方式，打破了人們對進入頂尖 AI 實驗室的固有認知。

那麼問題來了：他那篇非正式的部落格文章，到底有何魔力？為什麼沒有頂尖會議背書、沒有論文格式，卻能引發如此關注？

接下來，我們就來一起看看 Muon 的實際效果與特性。

對比其他優化器，Muon 有何吸引之處？

Muon 是一個專門為神經網路隱藏層設計的優化器。它目前刷新了 NanoGPT 和 CIFAR-10 等熱門任務的訓練速度記錄。

首先從實際測試上來看，Muon 目前已經取得了非常不錯的成績：

在 CIFAR-10 上，從頭訓練到 94% 準確率的時間，從 3.3 A100 秒縮短到 2.6 A100 秒。

在 NanoGPT 的「精煉網頁（FineWeb）」任務中，把驗證損失達到 3.28 的速度提升了 1.35 倍。

在參數規模擴展到 774M 和 1.5B 時，訓練速度依然保持優勢。

用 Muon 訓練一個 15 億參數的 Transformer，在 HellaSwag 任務中達到了 GPT-2 XL 的水平，只用了 10 小時（8 張 H100 組成的 GPU 集群）。而使用 AdamW 則需要 13.3 小時才能達到相同水平。

下圖展示了在 NanoGPT 任務中，Muon 與其他優化器在樣本效率和實際訓練時間上的對比表現：

圖 1 按樣本效率比較優化器

圖 2 按掛鐘時間比較優化器

以下是 Muon 和 AdamW 在訓練 15 億參數語言模型時的對比：

圖 3 Muon 與 AdamW 在 15 億參數短時間訓練中的對比

從設計上來看，Muon 的核心原理是——先用帶動量的 SGD（SGD-momentum）生成更新，再對每個更新矩陣進行一次 Newton-Schulz（NS）迭代處理，最後才將其應用到模型參數上。

它的實現也較為簡單：

Newton-Schulz 迭代的作用是對更新矩陣進行近似正交化，也就是說，它會執行如下操作：

換句話說，NS 迭代的實際效果是：把原本由 SGD-momentum 得出的更新矩陣，替換成與之最接近的「半正交矩陣」。

感興趣的小夥伴也可以通過 GitHub 地址快速找到 Muon 的 PyTorch 實現：https://github.com/KellerJordan/Muon

寫在最後

Keller 的經歷並不是在否定學術的價值，而是在提醒我們：在 AI 快速演進的當下，影響力的來源正在悄然改變。

一篇實際測試效果出色的部落格文章，可能比一篇格式完美卻難以落地的論文更具說服力。

這也讓我們聯想到 DeepSeek，這支隊伍同樣是走出了一條「技術效果優先」的成名路徑：沒有高調預熱，沒有複雜包裝，靠著實打實的性能和穩定表現，在激烈的大型模型競賽中脫穎而出，迅速贏得社群認可。

對當下的 AI 研究者來說，或許是時候重新思考：什麼才是真正值得投入時間的事？是一篇「看起來很強」的論文，還是一個「跑得夠快」的模型？Keller 和 Muon 的爆紅，或許只是這一轉變的開始。

📢 2025 全球產品經理大會

8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚網際網路巨頭、AI 創業公司、ToB/ToC 實戰一線的產品經理，圍繞產品設計、使用者體驗、成長營運、智慧落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃描下方 QR Code。

爆肝一篇部落格就拿到 OpenAI Offer！Muon 作者怒揭：幾乎所有優化器論文都是「假的」

分享短網址