速報!
ChatGPTリリース3周年記念に、DeepSeekが突然2つのモデルを発表:
• DeepSeek-V3.2
• DeepSeek-V3.2-Speciale
公開された推論系ベンチマークテストで、DeepSeek-V3.2はGPT-5レベルに到達、Gemini-3.0-Proにわずかに劣るのみ;Kimi-K2-Thinking比でV3.2の出力長が大幅短縮、計算オーバーヘッドとユーザー待機時間を著しく削減。
前者はバランスの取れた実用性を重視、日常Q&A、一般Agentタスク、現実アプリケーションでのツール呼び出しに適す。
推論はGPT-5レベル、Gemini-3.0-Proにわずかに劣る。
後者は究極推論に特化、ベンチマーク性能がGemini-3.0-Pro並み。
さらにIMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025で金メダル獲得。
注目点:ICPCで人間選手2位、IOIで人間選手10位レベル。
具体的には、DeepSeek-V3.2は推論能力と出力長のバランスを重視し、計算コストを低減。
DeepSeek公式ツイート:「DeepSeek-V3.2はAgent評価で現オープンソースモデルの最高レベルに到達」。
同モデルのその他の状況:
• 推論能力がGPT-5並み;
• Kimi-K2-Thinking比で出力長を大幅短縮、ユーザー待機時間削減;
• DeepSeek初の「思考をツール呼び出しに統合」モデル、思考/非思考デュアルモードツール呼び出し対応;
• 1800+環境、85000+複雑指示の大規模Agent訓練データで汎化能力強。
下図はDeepSeek-V3.2と他モデル各種Agentツール呼び出し評価セットのスコア
——特に、DeepSeek-V3.2はこれらのテストセットツールに特化訓練なし。
DeepSeek-V3.2-SpecialeはDeepSeek-V3.2の長思考強化版、DeepSeek-Math-V2の定理証明能力を融合。
指示追従、数学証明、論理検証で優れ、高度複雑数学推論、プログラミングコンテスト、学術研究タスクに推奨。
注意!日常会話・執筆向け最適化なし。
研究用のみ、ツール呼び出し非対応。
高度複雑タスクでは標準版を大幅上回るが、トークン消費とコストも大幅増。
現在、DeepSeekのAppとWeb版は正式DeepSeek-V3.2に更新;Specialeは一時APIのみ。
モデル公開と同時に技術レポート公開。
論文の技術詳細はハードコア:
新スパース注意機構DSAで計算複雑度大幅低減、強化学習訓練量が事前訓練の10%超、新大規模Agentタスク合成パイプライン……
詳細見ていこう。
DSA効率スパース注意機構提案、長テキストの負担解消
DeepSeek-V3.2最大アーキテクチャ革新はDSA(DeepSeek Sparse Attention)機構導入。
従来注意機構は長シーケンスでO(L²)複雑度、展開効率と訓練拡張性を深刻制限。
DSAはO(L·k)に低減、k≪L。
同時に、長コンテキストタスクで推論を大幅加速、無性能損失。
FP8精度対応、MLA(Multi-Query Attention)アーキテクチャ適合、訓練友好。
どう実現?
DSA主に2コンポーネント:lightning indexer(雷索引器)とfine-grained token selection(細粒度トークン選択)機構。
雷索引器はクエリトークンと履歴トークン間の関連スコアを高速計算、top-k最関連のみ注意計算。
チームはスループット向上のためReLU活性化を選択。
DeepSeek-V3.1-Terminusからの継続訓練で2段階戦略。
第1段階Dense Warm-up:密注意維持、lightning indexerのみ訓練、主注意分布整合。
1000ステップ、21億トークン。
第2段階スパース導入、各クエリトークン2048キー値対選択、15000ステップ、総9437億トークン。
実測効果抜群——
128kシーケンスでDeepSeek-V3.2推論コストV3.1-Terminus比数倍低減。
H800クラスタテスト:128K長でプレフィル百万トークンコスト0.7ドル→約0.2ドル、デコード2.4ドル→0.8ドル。
後訓練計算量が事前訓練10%超
注目はDeepSeekチームの強化学習大投資。
論文明記:RL訓練計算予算が事前訓練コスト10%超、オープンソースでは稀。
DeepSeek技術レポート:オープンソースモデルのpost-training計算不足が難タスク性能制限。
安定・スケーラブルRLプロトコル開発、後訓練計算が事前10%超、先進能力解禁。
詳述——
RL計算スケール安定化のため、GRPO(Group Relative Policy Optimization)アルゴ改良複数。
まず無偏KL推定、原K3推定器修正、系統誤差除去。
原は無限勾配重みで不安定。
次にオフラインシーケンスマスク戦略。
実訓練で大量rollout生成後mini-batch更新、off-policy導入。
データサンプリングポリシーと現ポリシーKL発散計算、遠い負サンプルマスクで干渉避け。
MoE向けKeep Routing設計。
推論・訓練フレーム差で同一入力異エキスパート活性化、 param跳躍。推論ルート保存・訓練強制で一致確保。
訓練はエキスパート蒸留。
各タスク専用モデル訓練:数学、コーディング、一般論理推論、一般Agent、Agentコーディング、Agent検索の6領域、各思考/非思考モード。
これらでドメイン特化データ生成、最終モデル訓練。
Agent能力のブレークスルー
新モデルAgentタスク突破も目を引く。
チームが推論とツール使用同時実現法発見。
思考コンテキスト管理で、DeepSeek-R1の新対話毎推論廃棄はトークン浪費過多と発見。
新管理:新ユーザーメッセージ時のみ履歴推論廃棄、ツールメッセージ追加時は保持。推論痕跡削除でもツール履歴/結果保持。
コールドスタートに巧妙プロンプト設計。
システムプロンプトで推論中自然ツール挿入学習。
例:プログラミングコンテストで思考先行、特殊タグで推論経路標記。
最硬派:自動環境合成パイプライン、1827タスク指向環境・85000複雑プロンプト生成。
例:旅行計画、多制約下3日行程、不重複都市、ホテル価格依レストラン/景点予算調整複雑論理。
巨大組合空間制約満足解探索難、検証易、この「難解易驗」RL訓練最適。
コードAgent:GitHub数百万issue-PR採掘、厳選・自動環境構築、数万実行可能ソフトウェア解決環境、Python/Java/JS等多言語。
検索Agent:マルチAgentパイプライン、大規模ウェブコーパス長尾エンティティサンプリング、問題構築・回答生成・検証で高品質データ。
評価:SWE-Verified 73.1%解決率、Terminal Bench 2.0 46.4%精度、現オープンソース大幅超。
MCP-Universe、Tool-Decathlon等ツールベンチでクローズドソース並み性能。
これら未見Agentシナリオへの推論汎化証明。
One More Thing
技術レポート最後、研究者限界を率直指摘。
総訓練FLOPs少で世界知識広さは先行クローズドソースに後れ。
トークン効率課題:Gemini-3.0-Pro出力品質到達に長軌跡必要。
チーム声明:将来版改善方向。
しかし——
DeepSeekよ、念願R2いつ上げてくれるんだ!!!!