Llama論文著者「離脱」、14人のチームはわずか3人に、フランスのユニコーン企業Mistralが最大の勝者に

画像

ビッグデータ要約より

2025年、Llamaの生みの親たちがMetaを離れている。

彼らのほとんどは、パリに拠点を置くAIスタートアップ企業Mistralに向かっている。Mistralは「オープンソースの速度」で、Meta自身が開拓した戦場に反攻を仕掛けている。

LlamaはかつてMetaの最も野心的なAIプロジェクトだった。ChatGPTとPaLMが主流の言論を占めていた2023年、Metaは画期的な論文と一連のオープンウェイトな大規模言語モデルで、予期せずオープンソース陣営を主舞台に押し上げた。当時、MetaのAI研究チームFAIR(Fundamental AI Research)もまさに絶頂期にあった。

画像

業界を揺るがしたその論文:https://arxiv.org/pdf/2302.13971

しかし2年後、この路線は岐路に立たされているようだ。

Metaは「人材流出」について公式なコメントをまだ出していないが、ソーシャルプラットフォームXではすでにいくつかの議論が交わされている。現在、Llamaの論文に署名した14人の研究者のうち、Metaに残っているのはわずか3人だ。あるコメントはこう述べている。「Metaはオープンソースの未来への道を開いたが、その道を築いた人々が背を向け、新たな出発をするのをただ見ているだけだ」。

画像

01 継続的な人材移動のライン

LinkedInの記録を見ると、Llamaチームの離脱は一朝一夕のものではなく、2023年初頭からひっそりと始まり、2025年初頭までにほぼ完了している。

最初に離れたのは、MetaのシニアリサーチャーであるGuillaume LampleとTimothée Lacroixだ。彼らはLlamaアーキテクチャのほぼ創始者であり、それぞれ2023年初頭と6月にMetaを退社した。その後、彼らはパリでMistral AIを設立した。

画像

写真キャプション:Timothée Lacroix、Arthur Mensch、Guillaume LampleはMistral AI社の共同創設者である。LacroixとLampleはMeta社のオリジナルのLlama論文の執筆に携わっていた。画像はbusinessinsiderより、Khanh Renaud/ABACAPRESS.COM提供。削除が必要な場合はお知らせください。

その後の1年半で、Marie-Anne Lachaux、Thibaut Lavril、Baptiste RozièreといったLlama論文の複数の著者が、このスタートアップに次々と加わった。現在、Mistralの研究の中心メンバーには、元Metaチームが丸ごと存在している。

他の人々もAIの最前線から離れていない。Anthropic、DeepMind、Microsoft AIに行った者もいれば、Kyutai、Cohereといった二線級の研究機関に加わった者もいる。

彼らは平均してMetaに5年以上在籍しており、これは決して「ただのサラリーマン的な異動」ではない。むしろ、これは認識の再構築に近い――MetaのAIシステム設計に深く関わっていた人々が、退職という形で自身の方向性を選択しているのだ。

02 Metaのオープンソースの理想は、企業戦略よりも速く進んだ

MetaがLlamaをリリースした際、それは少なからぬ戦略的な飛躍だった。モデルを閉鎖的に運用するのではなく、重みを公開し、パラメータを共有することで、開発者が単一のGPUで最先端のモデルを再現できるようにしたのだ。これは当時、OpenAIやGoogleのビジネス閉鎖的なアプローチに対する逆転の発想での挑戦だった。

技術的に見れば、Llamaの設計は確かに軽量で、より効率的だ。リソース消費に配慮し、大量のプライベートデータに依存せず、動作も速い。こうした「実用主義」の工学的な美学は、まさにオープンソースコミュニティの理想主義的なビジョンに合致していた。

だが問題は、理想が先行しすぎると、企業戦略が追いつかない可能性があるということだ。

Llamaモデルは開発者の間で高く評価され、Llama 2はHuggingFaceで最も人気のあるモデルの一つとなった。しかし、Llama 3からLlama 4にかけて、業界の雰囲気は変わり始めた。「新しさがない」「進捗が遅い」といったフィードバックが増えていった。特にDeepSeekやQwenなどの新興勢力が爆発的なイテレーションを見せた後、Metaは徐々に後れを取り始めた。

さらに深刻な警告は、MetaがGPT-4 TurboやGemini Proのような「推論能力」を備えたモデルバージョンをなかなかリリースしないことだ。これは、多段階推論、チェーン呼び出し、外部ツール統合といった次世代言語モデルの方向性において、すでに後れを取っていることを意味する。

画像

ウォールストリートジャーナルは、Metaが内部最大のモデルBehemothのリリースを延期していると報じている。これは、チームがその性能とリーダーシップの方向性について意見の相違があるためだという。

製品開発のペースが鈍化する一方で、Metaの技術路線に詳しい主要研究者が大量に流出しており、Metaは前後から挟み撃ちの状態にある。

03 FAIRの隠退と「新FAIR」の設立

この1年、Meta内部で重要な変化がもう一つあった。FAIRを8年間率いてきたJoelle Pineauが辞任を発表し、その後任にはRobert Fergusが就いた。この新リーダーはDeepMindに5年間在籍し、FAIRの初期共同創設者でもある。

FAIRはかつてMetaの研究における自信の核だった。2014年に設立され、グラフニューラルネットワーク、機械翻訳、マルチモーダル学習など、多くの最先端分野で影響力のある成果を発表してきた。LlamaはまさにFAIRの最高の傑作であった。

しかし現在、このチームの核となるメンバーは散り散りになり、方向性も変化している。

かつてFAIRの基本方針は「開放+共有」だった。しかし今、Metaの「応用」と「効率」への関心が、研究の探求心よりも優勢になっているようだ。このような矛盾の中で、多くの研究者が去る選択をしたのも、理解に難くない。

人事面だけを見れば、Metaのこの人材流出は「通常のチーム交代」と見なすこともできるが、実際は明らかにそれだけではない。

Mistralは単に元Metaの従業員を吸収した企業であるだけでなく、すでにMetaの直接の競合相手だ。複数のモデル評価において、MistralのMixtralとTiny Mistralは、パラメータ規模と効果のバランスの良さで、市場の「展開可能なモデル」の需要を捉えた。そして、これらの成果の多くは、元Metaチームによって主導されている。

これによりMetaは困惑する立場に置かれている。オープンソースの大規模モデルの第一章を定義したのはMetaだが、第二章は他者によって書かれているのだ。

04 Mistral:Metaから離反したチーム

画像

写真キャプション:Mistral AI公式サイトのスクリーンショット

Mistral AIの爆発的な成長は2023年に始まった。設立わずか1ヶ月で1億ドル以上のシードラウンド資金調達を完了し、その後1年以内に複数の大規模モデルファミリーを急速に立ち上げた。

Pixtralはマルチモーダルに対応し、Medium 3はSTEMおよびプログラミングタスクを対象とし、「Les Ministraux」はエッジ展開を最適化する。

最近ローンチされたOCR APIとアラビア語モデルSabaは、その製品戦略がもはや英語圏や研究モデルに限定されず、より広範なシナリオで積極的に拡大していることを示している。

しかし、この拡大の裏には、課題も明らかである。

画像

写真キャプション:Mistralの60億ドル評価に関するTechCrunchの報道

まず、「影響力と収益化能力の不均衡」というジレンマがある。チャットアシスタントのLe Chatはフランスで一時的にChatGPTを抜きApp Storeのダウンロードランキング首位に立ったものの、複数の情報筋によると、Mistralの収益は数千万ドル規模に留まっている。60億ドルと評価される企業にとって、IPOを支えたり、買収の憶測を払拭したりするには、まだ程遠い。

モデルの「開放性」という立場における自己矛盾も限定的だ。Mistralは初期にはApache 2.0ライセンスでモデルをオープンソース化することで知られていたが、商業化段階に入ると、その主力モデルのウェイトは公開されず、一部の「研究バージョン」のみが自由に使用できる形となっている。この「二段階」戦略は収益と評判を両立させるものだが、一部のオープンソースコミュニティからは「閉鎖化」が進んでいるのではないかという疑問の声も上がっている。

3つ目の隠れた懸念は、国際展開能力である。Mistralはフランス軍、AFP、Stellantis、IBM、Helsingなどと戦略的提携を結び、NVIDIA、Bpifranceと協力してパリにAIキャンパスを設立しているものの、そのユーザー層とエコシステム構築は依然として欧州市場が中心だ。対照的に、OpenAIやGoogleはすでに世界中で完全なAPIプラットフォーム、開発者ツールチェーン、コンシューマー向け製品群を構築しており、より強力な定着性と参入障壁を持っている。

まとめると、Mistralのチーム規模、資金調達額、モデル能力はすでにトップティアの水準に達しているが、グローバルな運用、インフラ構築、そして長期的なエコシステム構築においては、さらに多くの時間をかけて自らを証明する必要がある。

画像

GPU算力オンデマンドレンタル

A100/H100 GPU算力をオンデマンドでレンタル、

秒単位課金で、平均30%以上のコスト削減を実現!

画像

詳細はこちらをスキャン☝

画像

画像

画像

「いいね」を押した人はみんな美しくなりますよ!

メインタグ:人工知能

サブタグ:大規模言語モデルスタートアップ人材流出オープンソース


前の記事:長い推論≠高精度!「即答」と「深考」の適応的切り替え:トークン削減と精度向上の二重の利益の哲学

次の記事:Traeが有料化、Cursorは焦るべきか?

短いURLをシェア