コスト1/8でClaude 3.7に匹敵。たった今、「欧州のOpenAI」と呼ばれるMistral AIがマルチモーダル新モデルを発表しました。
Mistral Medium 3はプログラミングとマルチモーダル理解を重視し、パフォーマンスとコストのバランスを取っています。
公式発表によると、様々なベンチマークテストで、Mistral Medium 3のパフォーマンスはClaude Sonnet 3.7の90%に達するかそれを超え、コストは大幅に削減されています。
Claude 3.7 Sonnetの価格は、入力トークン100万個あたり3ドル、出力トークン100万個あたり15ドルですが、Mistral Medium 3は:
入力トークン100万個あたりわずか0.4ドル、出力トークン100万個あたり2ドルです。
全体的なパフォーマンスは、主要なオープンソースモデルであるLlama 4 MaverickやエンタープライズモデルであるCohere Command Aと比較しても、Mistral Medium 3は互角に戦えます。
現在、Mistral Medium 3 APIはMistral La PlateformeとAmazon Sagemakerで利用可能であり、近いうちにIBM WatsonX、NVIDIA NIM、Azure AI Foundry、Google Cloud Vertexでも提供される予定です。
具体的なベンチマークテストを見てみましょう。
Mistral Medium 3は特にプログラミングとSTEMタスクで優れています。
公式の言葉では、「そのパフォーマンスは、非常に大きく、動作がずっと遅い競合にも匹敵する」とのことです。
しかし、モデルの重みを公開しておらず、モデルサイズも明らかにしていません……
また、Mistral AIは第三者による人間評価も発表しました。
人間評価でも、Mistral Medium 3はプログラミングの分野で優位に立っています。
マルチモーダルおよびその他の言語タスクでは、Llama 4 Maverickと比較しても、Mistral Medium 3のパフォーマンスが上回っています。
テストデータに加えて、公式は特にエンタープライズ環境への適応能力を強調しており、これには以下が含まれます:
ハイブリッドデプロイメントまたはオンプレミス/仮想プライベートクラウド(VPC)内デプロイメント
カスタマイズされた後処理学習
エンタープライズツールおよびシステムとの統合
企業はインテリジェンスをシステムに完全に統合できます。MistralのアプリケーションAIソリューションを利用することで、このモデルは継続的な事前学習、完全なファインチューニング、エンタープライズナレッジベースへの組み込みが可能になり、特定の領域向けにトレーニングされた、継続学習と適応ワークフローのための高忠実度ソリューションとなります。
公式によると、金融サービス、エネルギー、ヘルスケア分野の顧客がこのモデルをテストしており、深い背景情報を通じて顧客サービスを豊かにし、ビジネスプロセスをパーソナライズし、複雑なデータセットを分析しています。
また、彼らはLe Chat Enterpriseという企業向けチャットボットサービスも立ち上げました。これにはAIエージェントビルダーのようなツールが提供され、MistralのモデルをGmail、Google Drive、SharePointなどのサードパーティサービスと統合します。
Le Chat EnterpriseはまもなくMCPをサポートする予定です。
Mistral Medium 3の発表後、多くのネットユーザーが注目し、「高コスパ」を称賛する声がありました。
しかし、モデルをオープンソース化しないのにオープンソースモデルと比較してアピールするのは少しおかしいとツッコミを入れるネットユーザーも少なくありませんでした。
さらに、自分で比較してみたいという行動派のネットユーザーもいます。
StabilityAIの創設者は、Gemini 2.5 Flashのベンチマークテスト結果を引っ張り出してきました:
それを見てこう述べています:
Gemini 2.5 Flashとの競争がいかに難しいか、Gemini 2.5 FlashはMistral Medium 3よりコストが70%低い。
Mistralの重要な強みであるオープンソースモデルのリリースを期待している。
One More Thing
3月にMistral Smallを、本日Mistral Mediumをローンチしたのに続き、Mistral AIは今後数週間で「大規模」なプロジェクトに取り組んでいることを明らかにしました。