碾壓DeepSeek V3！阿里巴巴開源新版Qwen-3，榜首級別的斷層領先

今天凌晨1點，阿里巴巴開源了Qwen3系列新版本Qwen3-235B-A22B-2507。

比較意外的是，阿里巴巴已經停用了混合思考模型，新版Qwen3是一個非思維推理模型，又回歸到指令微調模型，但其效能非常強勁。

根據阿里巴巴公布的數據顯示，新版Qwen3在知識、推理、程式碼、對齊、智能體、多語言測試等6大類數十種測試基準中，全部大幅度超越了DeepSeek開源的新版V3-0324模型。

例如，在SimpleQA測試中，DeepSeekV3得分27.2分，新版Qwen3為54.3分；在CSimpleQA測試中，DeepSeekV3得分71.1分，新版Qwen3為84.3分；

在ZebraLogic測試中，DeepSeekV3得分83.4分，新版Qwen3為95分；WritingBench測試中，DeepSeekV3得分74.5分，新版Qwen3為85.2分；TAU-Airline測試中，DeepSeekV3為32.0分，新版Qwen3為44.0分；PolyMATH測試中，DeepSeekV3為32.2分，新版Qwen3為50.2分。

同樣地，新版Qwen3也超越了月之暗面最新開源的kimi-k2。

Qwen3 與 DeepSeekV3 效能比較圖

開源地址：https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

網友表示：「我評估過的所有中型大型語言模型，在嚴格遵循提示詞這方面，沒有一個能接近Qwen。不知道你們用了什麼秘密配方，但請繼續保持這個水準。」

網友評論：Qwen 提示詞遵循度高

「哇，這是不是意味著你們新的無思維模式模型，在所有這些基準測試中都擊敗了KimiK2？」

網友評論：Qwen3 擊敗 KimiK2 的疑問

「令人印象深刻的優化改進。」

網友評論：令人印象深刻的改進

「太棒了夥計，幹得不錯。但什麼時候能發布一個小型模型呢？」

網友評論：期待 Qwen 小型模型

「已經擊敗了Kimi-K2了。」

網友評論：確認擊敗 Kimi-K2

「我剛剛對比了一下KimiK2的單次編碼。提示是：在一個HTML文件中製作一個完整的POS系統，設計要很棒，適合手機使用。我對Qwen3的印象比KimiK2更深刻。」

網友評論：Qwen3 程式碼生成能力優於 KimiK2

「Qwen團隊這次更新太讚了！新版Qwen3-235B-A22B-Instruct-2507採用指令模型與思維模型分開訓練的模式，這一舉措非常明智，有望提升模型效能與多功能性。期待看到這一創新成果不斷發展！」

網友評論：Qwen 團隊更新獲好評

「說真的，我太愛你們團隊了！繼續加油幹吧！超級期待視覺語言版本的推出！」

網友評論：期待 Qwen 視覺語言版本

新版Qwen3總共有2350億個參數，其中220億個是激活的。非嵌入參數數量為2340億，共有94層，採用64個查詢頭和4個鍵值頭的分組查詢注意力機制。它有128個專家，其中8個是激活的。其上下文長度原生支持262144。

新版Qwen3在指令遵循、邏輯推理、文本理解、數學、科學、程式設計和工具使用等通用能力方面進行了大量優化。還在多種語言的長尾知識覆蓋方面取得了顯著進步，並且在主觀和開放性任務中與用戶偏好的對齊度更高，能夠生成更有幫助且品質更高的文本，同時增強了對256K長文本上下文的理解能力。

在效能方面，Qwen3-235B-A22B-Instruct-2507在多個基準測試中表現優異。例如，在知識類的MMLU-Pro測試中得分為83.0，在MMLU-Redux中得分為93.1，在GPQA中得分為77.5。在推理能力方面，它在AIME25測試中得分為70.3，在HMMT25中得分為55.4。

Qwen3 基準測試效能圖

在程式設計能力方面，它在LiveCodeBenchv6測試中得分為51.8，在MultiPL-E中得分為87.9。在對齊能力方面，它在IFEval測試中得分為88.7，在Arena-Hardv2測試中得分為79.2。此外，它在多語言能力方面也有出色的表現，例如在MultiIF測試中得分為77.5，在MMLU-ProX測試中得分為79.4。

此外，Qwen3在工具調用能力方面表現出色，建議使用Qwen-Agent來充分發揮其智能體能力。Qwen-Agent內部封裝了工具調用模板和工具調用解析器，大大降低了編碼複雜性。可以透過MCP設定檔、Qwen-Agent的整合工具或自行整合其他工具來定義可用工具。

碾壓DeepSeek V3！阿里巴巴開源新版Qwen-3，榜首級別的斷層領先

分享短網址