DeepSeek V4詳解：降本提效，掘金Agent

中信建投證券 · 04/27 12:35

DeepSeek-V4預覽版發佈，其參數量相對上一代提升一倍，性能比肩全球閉源模型，達到開源模型SOTA，算力成本繼續優化，高性價比百萬上下文模型普惠時代到來。DeepSeek-V4在混合注意力機制、mHC、Muon等核心方向創新升級，計算網絡比、異構KV Cache、FP4量化感知創新等創新亮點諸多。國產算力與國產模型繼續相向而行、深度適配，國產算力黃金發展期到來。DeepSeek-V4延續開源策略，成本大幅下降，並在上下文長度、Agent等能力上進一步提升，全面利好複雜應用場景落地。

▍DeepSeek-V4預覽版：參數量相對上一代提升一倍，百萬上下文高性價比模型問世。

4月24日午間，DeepSeek發佈新一代模型V4-Preview，包含DeepSeek-V4-Pro和DeepSeek-V4-Flash兩款基模，均支持1M上下文窗口。兩款模型定位不同：1）V4-Pro定位爲高性能專家模型，總參數1.6T、激活參數 49B，其中1.6T參數相對DeepSeek V3.2提升一倍以上；2）V4-Flash定位爲高性價比快速模型，總參數 284B、激活參數13B。定價方面，DeepSeek-V4-Pro於4月24日官方定價爲輸入¥12/MTokens，輸出¥24/MTokens，4月25日官宣折扣後降至輸入¥3/MTokens，輸出¥6/MTokens，折扣後相較全球主流大模型具備極高性價比。據DeepSeek官方微信公衆號，目前Pro版模型服務吞吐十分有限，DeepSeek預計下半年昇騰950超節點批量上市後，Pro的價格會大幅下調。

▍模型性能：測評、使用表現比肩全球閉源模型，達到開源模型SOTA。

官方論文從推理、長上下文、Agentic Coding等維度對比了閉源模型和開源模型：知識型任務中，DeepSeek-V4-Pro-Max優於開源模型，縮小與閉源模型的差距；推理任務中，DeepSeek-V4-Pro-Max超過GPT-5.2和Gemini-3.0-Pro，略遜於GPT-5.4和Gemini 3.1-Pro，DeepSeek-V4-Flash-Max與GPT-5.2、Gemini-3.0-Pro相當；Agent任務中，DeepSeek-V4-Pro-Max與領先的開源模型相當，略遜於前沿閉源模型，內部評估中，優於Claude Sonnet 4.5，接近Opus 4.5的水平。產業實測中，長上下文能力走向實用及其穩定性獲得好評，編程能力進步明顯，在Arena.ai代碼競技場中，排名開源模型第3位。

▍模型創新：混合注意力機制、mHC、Muon等核心方向創新升級。

1）創新採用CSA+HCA混合注意力架構，壓縮自注意力層計算開支及緩存佔用。DeepSeek V4 Preview延續歷代模型的自注意力層（Attention）降本提效思路，模型在Attention層中交錯使用壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）結構，將多個token的KV Cache壓縮爲一個KV條目，使模型保證對超長上下文信息理解的基礎上，極致壓縮計算開支及緩存佔用。據DeepSeek官網論文披露，在100萬Token上下文場景下，DeepSeek-V4-Pro相較DeepSeek-V3.2僅需27%的單Token推理FLOPs和10%的KV Cache；DeepSeek-V4-Flash進一步降至10%的單Token推理FLOPs和7%的KV Cache。

2）mHC更新殘差連接範式，沿用V3後訓練機制引入在線混合蒸餾策略。經典HC（Hyper-Connections）在模型層次加深的過程中容易出現梯度消失、梯度爆炸等問題，限制模型參數量擴大。DeepSeek V4提出流形約束超連接（mHC）結構，保留模型各層之間多路徑信息傳遞的基礎上，限制每一層對信息的放大/縮小幅度，增強在更深層結構和更長上下文訓練中模型的穩定性。DeepSeek V4的後訓練環節在沿用V3.2框架的基礎上引入在線混合蒸餾策略（OPD），先針對數學、代碼、Agent、指令遵循等方向訓練出多個領域專家模型，再將其通過蒸餾方式合併到一個統一學生模型中。我們認爲，DeepSeek V4通過多項訓練機制方面的算法創新，進一步提升了超高參數規模和超長上下文模型訓練過程的穩定性。

▍算力優化：計算網絡比、異構KV Cache、FP4量化感知創新等創新亮點諸多。

1）計算與通信存在最優配比，有利於國產算力定向優化。DeepSeek V4 提出的計算通信比理論，是 MoE 大模型系統優化的重要突破，改變了行業內「MoE 效率必須依賴極致高帶寬」的慣性認知。DeepSeek V4 設計了細粒度波次調度的專家並行方案，實現了通信與計算的全量重疊，實測最高帶來 1.96 倍的性能提升。基於新的EP並行方案實驗結果和理論推導，DeepSeek得到了計算和通信的最優配比，DeepSeek指出，MoE 專家並行的核心瓶頸並非帶寬絕對值，而是算力與帶寬的配比是否滿足平衡閾值。團隊通過量化推導，給出了 MoE 架構的黃金平衡點：6144 FLOPs/Byte，即每 1GB/s 的互聯帶寬，足以完全支撐 6.1 TFLOP/s 算力對應的通信需求。當帶寬滿足這一閾值後，繼續堆疊帶寬將會進一步佔用芯片面積，壓縮芯片負責計算部分的面積，可能帶來邊際收益遞減。我們認爲這一理論爲國產硬件崛起提供理論支撐，國產算力芯片與超節點有望從中受益。

2）創新性優化KV Cache，SSD重要性提升、端側部署潛在受益。DeepSeek V4把KV Cache拆成兩類異構壓縮，是創新性工程突破，V4-Pro 百萬級上下文窗口的KV佔用僅爲V3.2的10%、V4-Flash則僅爲上一代的7%，是首個基於部分KV Cache在SSD Off-load所訓練出來的開源frontier model。基於這一異構分級機制，模型把定稿歷史塊全量搬到Disk，通過冷熱數據高效解耦，針對熱的SWA窗口數據，論文給出三檔策略，按場景在寫入壓力與重算成本間靈活權衡。我們認爲在雲端，V4的方案通過把共享前綴一次壓縮、跳過重複預填充等方式，提升了SSD在數據中心的重要性；在邊端，有效降低了邊端模型的部署成本和門檻，因爲以幾B到小几十B參數的邊端模型爲例，在Q4量化的情況下，通常權重只有幾到十幾GB，但1M上下文的稠密模型的Kv Cache可能數倍於權重。

▍國產算力：國產模型繼續相向而行。

在DeepSeek模型發佈當天，國產芯片紛紛宣佈day0適配，我們認爲國產模型的發展將進一步助推國產算力發展，國產算力與模型繼續相向而行。

1）V4 強化了國產算力的確定性。過去市場擔心國產 AI 芯片使用場景有限，當前V4 的同步適配說明國產芯片正在進入主流開源大模型生態。

2）V4 改變了國產算力的需求結構。不只是關注訓練卡，而是要更重視推理卡、超節點、互聯、液冷和軟件棧；未來訂單的核心不是「誰單卡算力最高」，而是「誰能以最低成本穩定跑DeepSeek此類大模型」。

3）V4 提高了國產算力商業化天花板。當 1M 上下文、Agent、Coding 進入低成本可用階段，企業級 AI 應用會從試點走向規模部署，國產算力的需求會從政策驅動轉向真實業務驅動。

▍應用影響：DeepSeek V4延續開源的策略，輸入輸出成本大幅下降，並在上下文長度、Agent等能力上進一步提升，利好複雜應用場景落地。

DeepSeek通過高性價比的推理成本降低應用門檻，未來將創造新的商業模式，在此基礎上，具備行業know-how屬性、深層嵌入企業記錄/交易/支付等功能的軟件公司，在垂直細分場景具備私域數據壁壘的專業軟件公司，受行業強監管、需要交付結果的軟件公司等，有望充分受益於AI賦能帶來價值增長。

▍風險因素：

AI核心技術發展、應用拓展不及預期，算力降本不及預期，AI被不當使用造成嚴重社會影響，數據安全風險，信息安全風險，行業競爭加劇。

▍投資策略：建議關注以下三條投資主線。

1）AI基礎設施：DeepSeek深度適配國產算力，國產算力與國產模型相向而行。

2）AI應用：模型延續開源的策略，輸入輸出成本大幅下降，並在上下文長度、Agent等能力上進一步提升，利好複雜應用場景及有壁壘的應用公司。

3）模型原廠：DeepSeek新一代模型有望與其他國產模型攜手，驅動中國AI加速走向世界，同時模型訓推進一步降本，更廉價的tokens驅動全球大模型API調用量整體增加。

注：本文節選自中信證券研究部已於2026年4月26日發佈的《計算機行業智能領軍（AI SOTA）系列報告9—DeepSeek V4詳解：降本提效，掘金Agent》報告；分析師：楊澤原 S1010517080002、孫竟耀 S1010524080014丁奇 S1010519120003、朱珏琦 S1010525030005、潘儒琛 S1010520110001、徐正源 S1010525100005、馬慶劉 S1010522090001、韓林軒 S1010525120004。

編輯/joryn

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與象象銀行相關的任何投資建議。象象銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。