DeepSeek V3を圧倒!アリババが新版Qwen-3をオープンソース化、ベンチマークで断トツのトップに

本日午前1時、アリババはQwen3シリーズの新バージョン、Qwen3-235B-A22B-2507をオープンソース化しました。

意外なことに、アリババは混合思考モデルの使用を停止し、新版Qwen3は非思考推論モデルとして、命令チューニングモデルに戻りましたが、その性能は非常に強力です。

アリババが公開したデータによると、新版Qwen3は、知識、推論、コード、アライメント、エージェント、多言語テストの6つの主要カテゴリ数十のベンチマークにおいて、DeepSeekがオープンソース化した新版V3-0324モデルを大幅に上回りました。

例えば、SimpleQAテストではDeepSeekV3が27.2点に対し、新版Qwen3は54.3点でした。CSimpleQAテストではDeepSeekV3が71.1点に対し、新版Qwen3は84.3点でした。

ZebraLogicテストではDeepSeekV3が83.4点に対し、新版Qwen3は95点でした。WritingBenchテストではDeepSeekV3が74.5点に対し、新版Qwen3は85.2点でした。TAU-AirlineテストではDeepSeekV3が32.0点に対し、新版Qwen3は44.0点でした。PolyMATHテストではDeepSeekV3が32.2点に対し、新版Qwen3は50.2点でした。

同様に、新版Qwen3は月之暗面が最近オープンソース化したKimi-K2をも上回っています。

Qwen3とDeepSeekV3のパフォーマンス比較図

オープンソースアドレス:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

あるネットユーザーは、「私が評価したすべての中規模大規模言語モデルの中で、プロンプトに厳密に従う点でQwenに匹敵するものはありませんでした。どのような秘密のレシピを使っているのか分かりませんが、この水準を維持し続けてください。」とコメントしました。

Qwenのプロンプト追従性に関するユーザーコメント

「わあ、これは新しい思考なしモデルが、これらすべてのベンチマークでKimiK2を打ち負かしたということですか?」

Qwen3がKimiK2を破ったかどうかのユーザー質問

「印象的な最適化改善です。」

印象的な改善に関するユーザーコメント

「素晴らしい仕事仲間たち、よくやった。でも、いつ小型モデルをリリースできるの?」

小型Qwenモデルへのユーザー期待

「すでにKimi-K2を打ち負かしました。」

Kimi-K2を破ったことを確認するユーザー

「KimiK2の単一ターンコーディングを比較しました。プロンプトは『HTMLファイルで完全なPOSシステムを作成し、素晴らしいデザインでモバイルに適していること』でした。私はKimiK2よりもQwen3に感銘を受けました。」

Qwen3とKimiK2のコーディング能力比較に関するユーザーコメント

「Qwenチームの今回のアップデートは素晴らしいです!新版Qwen3-235B-A22B-Instruct-2507は、命令モデルと思考モデルを別々に訓練するモードを採用しており、このアプローチは非常に賢明で、モデルの性能と多機能性を向上させるものと期待されます。この革新的な成果のさらなる発展を楽しみにしています!」

Qwenチームのアップデート戦略を称賛するユーザー

「正直言って、あなたのチームが大好きです!このまま頑張ってください!視覚言語バージョンのリリースが超楽しみです!」

Qwenの視覚言語バージョンへのユーザー期待

新版Qwen3は合計2350億個のパラメータを持ち、そのうち220億個がアクティブです。非埋め込みパラメータの数は2340億で、94層、64のクエリヘッドと4のキーバリューヘッドを持つグループ化クエリアテンションメカニズムを採用しています。128のエキスパートを持ち、そのうち8つがアクティブです。そのネイティブコンテキスト長は262144をサポートしています。

新版Qwen3は、命令追従、論理推論、テキスト理解、数学、科学、プログラミング、ツール使用などの汎用能力において大幅な最適化が行われました。また、多言語におけるロングテール知識のカバー範囲でも顕著な進歩を遂げ、主観的および開放的なタスクにおいてユーザーの好みに高いアライメントを示し、より役立つ高品質なテキストを生成できるようになりました。同時に、256Kの長文コンテキストの理解能力も強化されています。

パフォーマンスの面では、Qwen3-235B-A22B-Instruct-2507は複数のベンチマークで優れた成績を収めています。例えば、知識系のMMLU-Proテストで83.0点、MMLU-Reduxで93.1点、GPQAで77.5点を獲得しました。推論能力の面では、AIME25テストで70.3点、HMMT25で55.4点を獲得しました。

Qwen3ベンチマーク性能図

プログラミング能力の面では、LiveCodeBenchv6テストで51.8点、MultiPL-Eで87.9点を獲得しました。アライメント能力の面では、IFEvalテストで88.7点、Arena-Hardv2テストで79.2点を獲得しました。さらに、多言語能力でも優れたパフォーマンスを発揮しており、例えばMultiIFテストで77.5点、MMLU-ProXテストで79.4点を獲得しました。

さらに、Qwen3はツール呼び出し能力において際立っています。そのエージェント機能を最大限に活用するには、Qwen-Agentを使用することをお勧めします。Qwen-Agentは内部的にツール呼び出しテンプレートとツール呼び出しパーサーをカプセル化しており、コーディングの複雑さを大幅に削減します。利用可能なツールは、MCP設定ファイル、Qwen-Agentに統合されたツール、または独自に他のツールを統合することによって定義できます。

メインタグ:大規模言語モデル

サブタグ:オープンソースベンチマークテストAI性能アリババ


前の記事:新刊紹介:「神、AI、そして歴史の終焉:知能機械の時代における『ヨハネの黙示録』の理解」

次の記事:Kimi K2の主要な訓練技術:QK-Clip!

短いURLをシェア