衝撃!DeepSeekが正式に2つのモデルをリリース

速報!

ChatGPTリリース3周年記念に、DeepSeekが突然2つのモデルを発表:

• DeepSeek-V3.2

• DeepSeek-V3.2-Speciale

公開された推論系ベンチマークテストで、DeepSeek-V3.2はGPT-5レベルに到達、Gemini-3.0-Proにわずかに劣るのみ;Kimi-K2-Thinking比でV3.2の出力長が大幅短縮、計算オーバーヘッドとユーザー待機時間を著しく削減。

前者はバランスの取れた実用性を重視、日常Q&A、一般Agentタスク、現実アプリケーションでのツール呼び出しに適す。

推論はGPT-5レベル、Gemini-3.0-Proにわずかに劣る。

後者は究極推論に特化、ベンチマーク性能がGemini-3.0-Pro並み。

さらにIMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025で金メダル獲得。

注目点:ICPCで人間選手2位、IOIで人間選手10位レベル。

画像

具体的には、DeepSeek-V3.2は推論能力と出力長のバランスを重視し、計算コストを低減。

DeepSeek公式ツイート:「DeepSeek-V3.2はAgent評価で現オープンソースモデルの最高レベルに到達」。

同モデルのその他の状況:

• 推論能力がGPT-5並み;

• Kimi-K2-Thinking比で出力長を大幅短縮、ユーザー待機時間削減;

• DeepSeek初の「思考をツール呼び出しに統合」モデル、思考/非思考デュアルモードツール呼び出し対応;

• 1800+環境、85000+複雑指示の大規模Agent訓練データで汎化能力強。

下図はDeepSeek-V3.2と他モデル各種Agentツール呼び出し評価セットのスコア

——特に、DeepSeek-V3.2はこれらのテストセットツールに特化訓練なし。

画像

DeepSeek-V3.2-SpecialeはDeepSeek-V3.2の長思考強化版、DeepSeek-Math-V2の定理証明能力を融合。

指示追従、数学証明、論理検証で優れ、高度複雑数学推論、プログラミングコンテスト、学術研究タスクに推奨。

注意!日常会話・執筆向け最適化なし。

研究用のみ、ツール呼び出し非対応。

高度複雑タスクでは標準版を大幅上回るが、トークン消費とコストも大幅増。

画像

現在、DeepSeekのAppとWeb版は正式DeepSeek-V3.2に更新;Specialeは一時APIのみ。

モデル公開と同時に技術レポート公開。

論文の技術詳細はハードコア:

新スパース注意機構DSAで計算複雑度大幅低減、強化学習訓練量が事前訓練の10%超、新大規模Agentタスク合成パイプライン……

詳細見ていこう。

DSA効率スパース注意機構提案、長テキストの負担解消

DeepSeek-V3.2最大アーキテクチャ革新はDSA(DeepSeek Sparse Attention)機構導入。

従来注意機構は長シーケンスでO(L²)複雑度、展開効率と訓練拡張性を深刻制限。

DSAはO(L·k)に低減、k≪L。

同時に、長コンテキストタスクで推論を大幅加速、無性能損失。

FP8精度対応、MLA(Multi-Query Attention)アーキテクチャ適合、訓練友好。

画像

どう実現?

DSA主に2コンポーネント:lightning indexer(雷索引器)とfine-grained token selection(細粒度トークン選択)機構。

雷索引器はクエリトークンと履歴トークン間の関連スコアを高速計算、top-k最関連のみ注意計算。

チームはスループット向上のためReLU活性化を選択。

DeepSeek-V3.1-Terminusからの継続訓練で2段階戦略。

第1段階Dense Warm-up:密注意維持、lightning indexerのみ訓練、主注意分布整合。

1000ステップ、21億トークン。

第2段階スパース導入、各クエリトークン2048キー値対選択、15000ステップ、総9437億トークン。

実測効果抜群——

128kシーケンスでDeepSeek-V3.2推論コストV3.1-Terminus比数倍低減。

H800クラスタテスト:128K長でプレフィル百万トークンコスト0.7ドル→約0.2ドル、デコード2.4ドル→0.8ドル。

画像

後訓練計算量が事前訓練10%超

注目はDeepSeekチームの強化学習大投資。

論文明記:RL訓練計算予算が事前訓練コスト10%超、オープンソースでは稀。

画像

DeepSeek技術レポート:オープンソースモデルのpost-training計算不足が難タスク性能制限。

安定・スケーラブルRLプロトコル開発、後訓練計算が事前10%超、先進能力解禁。

詳述——

RL計算スケール安定化のため、GRPO(Group Relative Policy Optimization)アルゴ改良複数。

まず無偏KL推定、原K3推定器修正、系統誤差除去。

原は無限勾配重みで不安定。

次にオフラインシーケンスマスク戦略。

実訓練で大量rollout生成後mini-batch更新、off-policy導入。

データサンプリングポリシーと現ポリシーKL発散計算、遠い負サンプルマスクで干渉避け。

MoE向けKeep Routing設計。

推論・訓練フレーム差で同一入力異エキスパート活性化、 param跳躍。推論ルート保存・訓練強制で一致確保。

訓練はエキスパート蒸留。

各タスク専用モデル訓練:数学、コーディング、一般論理推論、一般Agent、Agentコーディング、Agent検索の6領域、各思考/非思考モード。

これらでドメイン特化データ生成、最終モデル訓練。

画像

Agent能力のブレークスルー

新モデルAgentタスク突破も目を引く。

チームが推論とツール使用同時実現法発見。

画像

思考コンテキスト管理で、DeepSeek-R1の新対話毎推論廃棄はトークン浪費過多と発見。

新管理:新ユーザーメッセージ時のみ履歴推論廃棄、ツールメッセージ追加時は保持。推論痕跡削除でもツール履歴/結果保持。

コールドスタートに巧妙プロンプト設計。

システムプロンプトで推論中自然ツール挿入学習。

例:プログラミングコンテストで思考先行、特殊タグで推論経路標記。

最硬派:自動環境合成パイプライン、1827タスク指向環境・85000複雑プロンプト生成。

例:旅行計画、多制約下3日行程、不重複都市、ホテル価格依レストラン/景点予算調整複雑論理。

画像画像

巨大組合空間制約満足解探索難、検証易、この「難解易驗」RL訓練最適。

コードAgent:GitHub数百万issue-PR採掘、厳選・自動環境構築、数万実行可能ソフトウェア解決環境、Python/Java/JS等多言語。

検索Agent:マルチAgentパイプライン、大規模ウェブコーパス長尾エンティティサンプリング、問題構築・回答生成・検証で高品質データ。

評価:SWE-Verified 73.1%解決率、Terminal Bench 2.0 46.4%精度、現オープンソース大幅超。

MCP-Universe、Tool-Decathlon等ツールベンチでクローズドソース並み性能。

これら未見Agentシナリオへの推論汎化証明。

画像

One More Thing

技術レポート最後、研究者限界を率直指摘。

総訓練FLOPs少で世界知識広さは先行クローズドソースに後れ。

トークン効率課題:Gemini-3.0-Pro出力品質到達に長軌跡必要。

チーム声明:将来版改善方向。

しかし——

DeepSeekよ、念願R2いつ上げてくれるんだ!!!!

メインタグ:DeepSeek モデルリリース

サブタグ:推論能力強化学習DSA機構Agentタスク


前の記事:因果推論がLLM戦場に突入!大規模モデルの幻覚終結者?ABCAフレームワーク

短いURLをシェア