DeepSeek-V4預覽版發佈,其參數量相對上一代提升一倍,性能比肩全球閉源模型,達到開源模型SOTA,算力成本繼續優化,高性價比百萬上下文模型普惠時代到來。DeepSeek-V4在混合注意力機制、mHC、Muon等核心方向創新升級,計算網絡比、異構KV Cache、FP4量化感知創新等創新亮點諸多。國產算力與國產模型繼續相向而行、深度適配,國產算力黃金發展期到來。DeepSeek-V4延續開源策略,成本大幅下降,並在上下文長度、Agent等能力上進一步提升,全面利好複雜應用場景落地。
▍DeepSeek-V4預覽版:參數量相對上一代提升一倍,百萬上下文高性價比模型問世。
4月24日午間,DeepSeek發佈新一代模型V4-Preview,包含DeepSeek-V4-Pro和DeepSeek-V4-Flash兩款基模,均支持1M上下文窗口。兩款模型定位不同:1)V4-Pro定位爲高性能專家模型,總參數1.6T、激活參數 49B,其中1.6T參數相對DeepSeek V3.2提升一倍以上;2)V4-Flash定位爲高性價比快速模型,總參數 284B、激活參數13B。定價方面,DeepSeek-V4-Pro於4月24日官方定價爲輸入¥12/MTokens,輸出¥24/MTokens,4月25日官宣折扣後降至輸入¥3/MTokens,輸出¥6/MTokens,折扣後相較全球主流大模型具備極高性價比。據DeepSeek官方微信公衆號,目前Pro版模型服務吞吐十分有限,DeepSeek預計下半年昇騰950超節點批量上市後,Pro的價格會大幅下調。
▍模型性能:測評、使用表現比肩全球閉源模型,達到開源模型SOTA。
官方論文從推理、長上下文、Agentic Coding等維度對比了閉源模型和開源模型:知識型任務中,DeepSeek-V4-Pro-Max優於開源模型,縮小與閉源模型的差距;推理任務中,DeepSeek-V4-Pro-Max超過GPT-5.2和Gemini-3.0-Pro,略遜於GPT-5.4和Gemini 3.1-Pro,DeepSeek-V4-Flash-Max與GPT-5.2、Gemini-3.0-Pro相當;Agent任務中,DeepSeek-V4-Pro-Max與領先的開源模型相當,略遜於前沿閉源模型,內部評估中,優於Claude Sonnet 4.5,接近Opus 4.5的水平。產業實測中,長上下文能力走向實用及其穩定性獲得好評,編程能力進步明顯,在Arena.ai代碼競技場中,排名開源模型第3位。
▍模型創新:混合注意力機制、mHC、Muon等核心方向創新升級。
1)創新採用CSA+HCA混合注意力架構,壓縮自注意力層計算開支及緩存佔用。DeepSeek V4 Preview延續歷代模型的自注意力層(Attention)降本提效思路,模型在Attention層中交錯使用壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)結構,將多個token的KV Cache壓縮爲一個KV條目,使模型保證對超長上下文信息理解的基礎上,極致壓縮計算開支及緩存佔用。據DeepSeek官網論文披露,在100萬Token上下文場景下,DeepSeek-V4-Pro相較DeepSeek-V3.2僅需27%的單Token推理FLOPs和10%的KV Cache;DeepSeek-V4-Flash進一步降至10%的單Token推理FLOPs和7%的KV Cache。
2)mHC更新殘差連接範式,沿用V3後訓練機制引入在線混合蒸餾策略。經典HC(Hyper-Connections)在模型層次加深的過程中容易出現梯度消失、梯度爆炸等問題,限制模型參數量擴大。DeepSeek V4提出流形約束超連接(mHC)結構,保留模型各層之間多路徑信息傳遞的基礎上,限制每一層對信息的放大/縮小幅度,增強在更深層結構和更長上下文訓練中模型的穩定性。DeepSeek V4的後訓練環節在沿用V3.2框架的基礎上引入在線混合蒸餾策略(OPD),先針對數學、代碼、Agent、指令遵循等方向訓練出多個領域專家模型,再將其通過蒸餾方式合併到一個統一學生模型中。我們認爲,DeepSeek V4通過多項訓練機制方面的算法創新,進一步提升了超高參數規模和超長上下文模型訓練過程的穩定性。
▍算力優化:計算網絡比、異構KV Cache、FP4量化感知創新等創新亮點諸多。
1)計算與通信存在最優配比,有利於國產算力定向優化。DeepSeek V4 提出的計算通信比理論,是 MoE 大模型系統優化的重要突破,改變了行業內 「MoE 效率必須依賴極致高帶寬」 的慣性認知。DeepSeek V4 設計了細粒度波次調度的專家並行方案,實現了通信與計算的全量重疊,實測最高帶來 1.96 倍的性能提升。基於新的EP並行方案實驗結果和理論推導,DeepSeek得到了計算和通信的最優配比,DeepSeek指出,MoE 專家並行的核心瓶頸並非帶寬絕對值,而是算力與帶寬的配比是否滿足平衡閾值。團隊通過量化推導,給出了 MoE 架構的黃金平衡點:6144 FLOPs/Byte,即每 1GB/s 的互聯帶寬,足以完全支撐 6.1 TFLOP/s 算力對應的通信需求。當帶寬滿足這一閾值後,繼續堆疊帶寬將會進一步佔用芯片面積,壓縮芯片負責計算部分的面積,可能帶來邊際收益遞減。我們認爲這一理論爲國產硬件崛起提供理論支撐,國產算力芯片與超節點有望從中受益。
2)創新性優化KV Cache,SSD重要性提升、端側部署潛在受益。DeepSeek V4把KV Cache拆成兩類異構壓縮,是創新性工程突破,V4-Pro 百萬級上下文窗口的KV佔用僅爲V3.2的10%、V4-Flash則僅爲上一代的7%,是首個基於部分KV Cache在SSD Off-load所訓練出來的開源frontier model。基於這一異構分級機制,模型把定稿歷史塊全量搬到Disk,通過冷熱數據高效解耦,針對熱的SWA窗口數據,論文給出三檔策略,按場景在寫入壓力與重算成本間靈活權衡。我們認爲在雲端,V4的方案通過把共享前綴一次壓縮、跳過重複預填充等方式,提升了SSD在數據中心的重要性;在邊端,有效降低了邊端模型的部署成本和門檻,因爲以幾B到小几十B參數的邊端模型爲例,在Q4量化的情況下,通常權重只有幾到十幾GB,但1M上下文的稠密模型的Kv Cache可能數倍於權重。
▍國產算力:國產模型繼續相向而行。
在DeepSeek模型發佈當天,國產芯片紛紛宣佈day0適配,我們認爲國產模型的發展將進一步助推國產算力發展,國產算力與模型繼續相向而行。
1)V4 強化了國產算力的確定性。過去市場擔心國產 AI 芯片使用場景有限,當前V4 的同步適配說明國產芯片正在進入主流開源大模型生態。
2)V4 改變了國產算力的需求結構。不只是關注訓練卡,而是要更重視推理卡、超節點、互聯、液冷和軟件棧;未來訂單的核心不是「誰單卡算力最高」,而是「誰能以最低成本穩定跑DeepSeek此類大模型」。
3)V4 提高了國產算力商業化天花板。當 1M 上下文、Agent、Coding 進入低成本可用階段,企業級 AI 應用會從試點走向規模部署,國產算力的需求會從政策驅動轉向真實業務驅動。
▍應用影響:DeepSeek V4延續開源的策略,輸入輸出成本大幅下降,並在上下文長度、Agent等能力上進一步提升,利好複雜應用場景落地。
DeepSeek通過高性價比的推理成本降低應用門檻,未來將創造新的商業模式,在此基礎上,具備行業know-how屬性、深層嵌入企業記錄/交易/支付等功能的軟件公司,在垂直細分場景具備私域數據壁壘的專業軟件公司,受行業強監管、需要交付結果的軟件公司等,有望充分受益於AI賦能帶來價值增長。
▍風險因素:
AI核心技術發展、應用拓展不及預期,算力降本不及預期,AI被不當使用造成嚴重社會影響,數據安全風險,信息安全風險,行業競爭加劇。
▍投資策略:建議關注以下三條投資主線。
1)AI基礎設施:DeepSeek深度適配國產算力,國產算力與國產模型相向而行。
2)AI應用:模型延續開源的策略,輸入輸出成本大幅下降,並在上下文長度、Agent等能力上進一步提升,利好複雜應用場景及有壁壘的應用公司。
3)模型原廠:DeepSeek新一代模型有望與其他國產模型攜手,驅動中國AI加速走向世界,同時模型訓推進一步降本,更廉價的tokens驅動全球大模型API調用量整體增加。
注:本文節選自中信證券研究部已於2026年4月26日發佈的《計算機行業智能領軍(AI SOTA)系列報告9—DeepSeek V4詳解:降本提效,掘金Agent》報告;分析師:楊澤原 S1010517080002、孫竟耀 S1010524080014丁奇 S1010519120003、朱珏琦 S1010525030005、潘儒琛 S1010520110001、徐正源 S1010525100005、馬慶劉 S1010522090001、韓林軒 S1010525120004。
編輯/joryn