編集 | 屠敏
提供 | CSDN(ID:CSDNnews)
トップカンファレンスの論文でもなく、arXivに投稿されたわけでもなく、ましてや「正式に発表された」とさえ言えない——しかし、たった1つのブログ記事によって、ある研究者がOpenAIのオファーを勝ち取った。このブログの技術はGPT-5のトレーニングにも使用されていると噂されている。
まるで冗談のような話だが、Keller Jordanという研究者はそれを現実に成し遂げた。
Keller Jordanのこのブログは『Muon: An optimizer for hidden layers in neural networks』(https://kellerjordan.github.io/posts/muon/)と題されており、Muonという新しいオプティマイザが提案されている。
簡単に言えば、この論文はフォーマルな形式でもなく、査読も経ていないが、実測での優れた効果により予期せず注目を集めた。さらに驚くべきことに、これが彼がOpenAIの門を叩くための鍵となったのだ。
このニュースは、Keller Jordanの協力者であり、AIクラウドプラットフォームスタートアップであるHyperbolic Labsの共同創設者であるYuchen JinがXで初めて公開した。
Yuchen Jinはこう書いている:
「多くの博士(かつての私も含め)は、トップカンファレンスで論文を発表することが最終目標だと誤解しがちです。
しかし、「発表」は「影響力」と同義ではありません。
Muonは単なるブログ記事ですが、KellerがOpenAIのオファーを獲得するのを助けました——今、彼はおそらくGPT-5のトレーニングにそれを使用しているでしょう。
彼が私を共同著者として挙げてくれたことに感謝しています。私はNanoGPTでいくつかの実験を行い、より大きな言語モデルでのMuonの拡張性をテストしただけですが、その結果、AdamW(かつてのオプティマイザの王者)を完全に打ち負かしました!
この一件は私に教えてくれました:研究であれ、人生であれ、追求すべきは影響力であり、華やかな肩書きではないと。」
AI製品は爆発的に増えているが、あなたの問題点は解決されたか?8月15〜16日 北京ウェスティン・グローバルプロダクトマネージャーサミット PM-Summit、3000人以上のAIプロダクト担当者コミュニティが準備万端。AIの実装課題に直面し、主要事例を分析し、正確なリソースをマッチング!
QRコードをスキャンして情報を登録し、アシスタントを追加してグループに参加し、AI製品の次の波の恩恵を掴み取ろう:
グループに参加すると、以下の機会が得られます:
・最新かつ最も注目すべきAI製品情報と専門家の見解
・AGI時代の製品メソッドと実践経験を解説する独占ビデオと記事
・不定期にAI製品の役立つ資料と秘密をプレゼント
トップカンファレンス論文 ≠ 影響力がある
Yuchen Jinのこの発言は、多くの議論を巻き起こした。
結局のところ、学術界では、トップカンファレンスの論文は、個人の研究水準とキャリアの可能性を測る「硬い通貨」とされている——特に博士課程の学生にとっては、一流の研究室に入り、教職を申請し、研究費を獲得できるかどうかは、NeurIPS、ICLR、CVPR、ACLといった会議に名前が載っているかどうかが非常に重要だ。
しかし、Kellerは「非公式な」ブログ記事で、従来の常識を覆すように、直接的に追い抜いてみせたのだ。
実は、Keller Jordanは今年の2月にはすでにこの件に対する自身の見解を公に表明していた。彼はXで、Muonのために正式なarXiv論文を書かなかったのは、「データが美しく、図表が華やかなオプティマイザ論文を書くこと」と「そのオプティマイザが実際に役立つかどうか」の間に必然的な関連性があるとはまったく信じていなかったからだと書いている。
彼は実際のトレーニングでのパフォーマンスをより重視しており、「私は実測のベンチマークしか信じない」と述べている。
彼の考えでは、形式的な要件が煩雑で、査読期間が長い論文執筆に多大な時間を費やすよりも、実践への落とし込みと実際の効果に集中する方が良い。結局のところ、一つのアイデアが形になり論文として発表されるまでには、数ヶ月、あるいはそれ以上の時間がかかることが多く、ようやく世に出た時には「時代遅れ」になっている可能性が非常に高く、たとえ発表されたとしても、トップカンファレンスに次々と投稿される論文の波に埋もれてしまい、本当に読んだり使ったりする人はほとんどいないだろう。
AIが各分野のイテレーション速度を加速させている現在、このような見解は珍しくない。
元Google研究員のHieu Phamはこの件についてこうコメントしている:
「かつては、『論文を発表する』ことが『影響力を生む』ことと同義でした。ResNet、Seq2Seq、Adam、Attention、Transformers、MoE…これらの古典的な成果はすべて論文形式で発表されました。しかし、本当の問題は、私たちがこの時代が終わったことに気づいていないことです。私自身も同様の間違いを犯しました。幸いなことに、今、私たちは再び選択する機会があります。」
彼はさらに、オプティマイザについて、「業界では何万ものオプティマイザに関する論文が発表されてきましたが、SOTA(最先端性能)を実際に推進したのは、AdamからAdamWへの一度だけです。他のいわゆる進歩は、基本的にこれら二つの改善によるもので、例えばFSDPなどです。したがって、私たちはもうこのような論文を書くのをやめるべきです。AdamWを引用する必要もありません。誰もがそれがどこから来たかを知っていますから。」
同じく博士号を持つYuchen Jinも、学術エコシステムの限界についてこう述べている:「これが学術界の残念な点です。かつて私の研究室の仲間は、どのトップコンピューターシステム会議でも論文を発表できず、そのため有名大学の教職を得ることが困難でした。しかし最終的には、彼はGoogleの副社長になりました。」
型破りな「硬派な優等生」
今や、Keller Jordanの経験は、論文を書かなくても一流の最先端研究室に入れるという新たな示唆を人々に与えている。
Muonがますます多くの研究者の注目を集める中、本日、Kellerは自身の見解を改めて強調した――「何百ものオプティマイザに関する論文が発表されてきたが、いわゆる最適性能(SOTA)が向上したのはほんの数回だけだ。だから、ほとんどすべてのオプティマイザ論文は『偽物』だという結論が出せる。もしあなたがまたそんな『偽オプティマイザ』論文を書くつもりなら、Muonを引用しないでほしい。私にはあなたの引用は必要ない。」
この発言は辛辣だが、Keller Jordanの「学術的な装飾よりも実際の効果」というこだわりと、彼の鮮明な個性を反映している。
Kellerの経歴を見ると、彼が間違いなく「硬派な優等生」であることがわかる。
LinkedInの資料によると、Kellerはカリフォルニア大学サンタクルーズ校で機械学習、データサイエンスなどを専攻。その後、UCバークレーでオペレーティングシステム、計算セキュリティを専攻した。そして2020年には、カリフォルニア大学サンディエゴ校で数学とコンピュータサイエンスの二重学位を3.94(4点満点中)という高い成績で取得した。
卒業後、彼はHive社に入社し、機械学習エンジニアとして勤務。その後、ウィーン複雑系科学センター(Complexity Science Hub Vienna)に客員研究員として加わり、AIの実践を深めた。
そして2024年12月、Muon発表後まもなく、KellerはOpenAIに成功裏に入社した。これは、一流のAI研究所に入るための従来の学術的常識をほぼ「逆転」させる方法で、人々の認識を打ち破ったのだ。
そこで疑問が生じる:彼の非公式なブログ記事には、一体どんな魔力があったのだろうか?なぜトップカンファレンスの推薦も、論文形式もなしに、これほど注目を集めることができたのだろうか?
次に、Muonの実際の効果と特性について見ていこう。
他のオプティマイザと比べて、Muonの魅力は何だろうか?
Muonは、ニューラルネットワークの隠れ層向けに特化して設計されたオプティマイザである。現在、NanoGPTやCIFAR-10といった人気タスクのトレーニング速度記録を更新している。
まず実測結果を見ると、Muonはすでに非常に優れた成績を収めている:
CIFAR-10では、94%の精度に達するまでの最初からのトレーニング時間が、3.3 A100秒から2.6 A100秒に短縮された。
NanoGPTの「FineWeb」タスクでは、検証損失が3.28に達するまでの速度が1.35倍向上した。
パラメータ規模が774Mおよび1.5Bに拡張された場合でも、トレーニング速度は優位性を保った。
Muonを使って15億パラメータのトランスフォーマーをトレーニングしたところ、HellaSwagタスクでGPT-2 XLレベルに達するのにわずか10時間(H100 GPU 8枚で構成されるクラスターを使用)しかかからなかった。AdamWを使用した場合、同じレベルに達するには13.3時間が必要だった。
以下の図は、NanoGPTタスクにおいて、Muonと他のオプティマイザのサンプル効率と実際のトレーニング時間の比較を示している:
図1 サンプル効率によるオプティマイザ比較
図2 実時間によるオプティマイザ比較
以下は、MuonとAdamWが15億パラメータ言語モデルをトレーニングする際の比較である:
図3 MuonとAdamWの15億パラメータ短期トレーニングにおける比較
設計面から見ると、Muonの核心原理は——まずモーメンタム付きSGD(SGD-momentum)で更新を生成し、次に各更新行列に対してNewton-Schulz(NS)の反復処理を一度行い、最後にそれをモデルパラメータに適用する、というものである。
その実装も比較的簡単である:
Newton-Schulzの反復の役割は、更新行列を近似的に正規直交化することである。つまり、以下の操作を実行する:
言い換えれば、NS反復の実際の効果は、SGD-momentumから得られた更新行列を、それに最も近い「半直交行列」に置き換えることである。
興味のある方は、GitHubのアドレス(https://github.com/KellerJordan/Muon)からMuonのPyTorch実装を素早く見つけることができる。
最後に
Kellerの経験は学術の価値を否定するものではなく、AIが急速に進化する現代において、影響力の源が静かに変化していることを私たちに示唆している。
実測効果の優れたブログ記事は、形式は完璧でも実用化が難しい論文よりも、説得力があるかもしれない。
これはDeepSeekを連想させる。このチームもまた、「技術効果優先」という成功の道を歩んだ。大々的な事前宣伝もなく、複雑なパッケージングもなしに、実証済みの性能と安定したパフォーマンスで激しい大規模モデル競争を勝ち抜き、迅速にコミュニティの評価を得た。
今日のAI研究者にとって、おそらく今こそ再考すべき時だろう:「本当に時間をかける価値があるのは何か?」「『強そうに見える』論文か、それとも『十分速く動く』モデルか?」KellerとMuonの爆発的な成功は、この変化の始まりに過ぎないのかもしれない。
📢 2025 グローバルプロダクトマネージャーサミット
8月15日〜16日
北京・ウェスティンホテル
2025 グローバルプロダクトマネージャーサミットは、インターネット大手企業、AIスタートアップ、ToB/ToCの実践現場のプロダクトマネージャーが一堂に会し、製品設計、ユーザー体験、成長運用、インテリジェント実装などの核心的なテーマについて、12の専門セッションを展開し、トレンドを洞察し、経路を分析し、未来について語り合う。
詳細および登録は、以下のQRコードをスキャンしてください。