以1/8成本匹敵Claude 3.7,歐洲OpenAI Mistral AI發布多模態新模型

以1/8成本匹敵Claude 3.7,剛剛,「歐洲OpenAI」Mistral AI發布多模態新模型。

Mistral Medium 3,主打程式設計和多模態理解,且在效能和成本間進行了平衡。

AI模型相關圖片

官方稱,在各類基準測試中,Mistral Medium 3效能達到或超越Claude Sonnet 3.7的90%,且成本大大降低。

Claude 3.7 Sonnet的價格為每百萬輸入token 3美元,每百萬輸出token 15美元,而Mistral Medium 3:

每百萬輸入token僅0.4美元,每百萬輸出token 2美元。

整體效能,不管是和領先的開源模型Llama 4 Maverick還是和企業級模型Cohere Command A相比,Mistral Medium 3都能打得有來有回。

目前,Mistral Medium 3 API已在Mistral La Plateforme和Amazon Sagemaker上線,不久後還將在IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex上推出。

下面具體來看看基準測試。

Mistral Medium 3在程式設計和STEM任務中尤為突出。

基準測試結果

官方原話是「其效能甚至接近非常大且執行速度慢得多的競爭對手」。

不過呢,既不開放模型權重,也沒有透露模型大小……

AI模型相關圖片

另外,Mistral AI還發布了第三方人類評估。

人類評估中,Mistral Medium 3依舊是在程式設計方面佔優勢。

人類評估結果

在多模態和其他人類語言任務中,相比Llama 4 Maverick,Mistral Medium 3的表現也佔上風。

人類評估結果

除了測試數據之外,官方還特別強調了其適應企業環境的能力,包括:

混合部署或本地 / 虛擬私有雲(VPC)內部署

定制化後期訓練

與企業工具和系統整合

企業可以輕鬆將智能全面整合到系統中,借助Mistral的應用AI解決方案,該模型可以持續進行預訓練、全面微調,並融入企業知識庫,使其成為針對特定領域訓練、持續學習和自適應工作流程的高保真解決方案。

官方稱,金融服務、能源和醫療保健領域的客戶正在使用該模型測試,通過深入的背景信息來豐富客戶服務、實現業務流程的個人化,並對複雜的數據集進行分析。

AI模型相關圖片

另外,他們還推出了Le Chat Enterprise,這是一項面向企業的聊天機器人服務,提供了AI Agent建造器之類的工具,並將Mistral的模型與Gmail、Google Drive、SharePoint等第三方服務整合。

據了解,Le Chat Enterprise將很快支援 MCP。

Mistral Medium 3發布後引發大批網友關注,有網友為其「高性價比」點讚。

社群評論

不過也有不少網友吐槽模型沒說開源結果又高調地和開源模型比較,有點奇怪。

社群評論

還有行動派網友,想看什麼自己比較。

StabilityAI創始人翻出了Gemini 2.5 Flash的基準測試結果:

基準測試結果

看後表示:

與Gemini 2.5 Flash競爭是多麼困難,Gemini 2.5 Flash成本比Mistral Medium 3低70%。

期待開源模型的發布,這是Mistral的關鍵優勢。

AI模型相關圖片

繼三月份推出Mistral Small、今日推出Mistral Medium後,Mistral AI透露接下來幾週正著手開發「大型」專案。

AI模型相關圖片

主標籤:AI模型

次標籤:Mistral AI基準測試AI成本多模態AI


上一篇:AI 生成的程式碼:一誕生即為「遺留程式碼」?

下一篇:多模態大語言模型基於規則強化微調中的顯式思考研究

分享短網址