DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速
百万上下文普惠化,架构革新打通成本关
DeepSeek V4预览版于2026年4月24日上线并开源,包含1.6万亿总参数的Pro版与2840亿总参数的Flash版,全系列支持百万级上下文窗口。技术报告显示,V4通过混合注意力机制(压缩稀疏注意力CSA+高强度压缩注意力HCA)与流形约束超连接(mHC),在100万Token场景下,Pro版推理FLOPs较前代降低3.7倍,KV Cache降低9.5倍;Flash版更将计算量压缩至1/9.8、显存占用降至1/13.7。同时,团队设计了一体化融合内核、FP4量化感知训练及异构KV缓存架构,从训练到推理全链路实现极致效率。
性能方面,V4-Pro在Agentic Coding、数学与STEM推理等评测中超越所有已公开开源模型,比肩世界顶级闭源模型,Agent能力被内部员工评价“优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式”。成本同步降至“白菜价”:Pro版百万Token输入1元(缓存命中)/12元(缓存未命中),输出24元;Flash版更分别低至0.2元、1元、2元,仅为海外对标模型Opus 4.6价格的14%-35%。官方明确表示,下半年昇腾950超节点批量上市后,Pro价格将大幅下调。
DeepSeek选昇腾首发,芯片厂商集体Day 0冲刺
本次发布最关键的信号是全面拥抱国产算力。华为昇腾率先实现全系列产品(950/ A3/ A2等)对V4-Pro与V4-Flash的深度适配。基于昇腾950超节点,V4-Pro在8K输入下实现TPOT约20ms、单卡Decode吞吐4700 TPS;Flash版在相同场景下TPOT约10ms、单卡吞吐1600 TPS。这一极低时延得益于昇腾950的三大底层升级:原生支持FP8/MXFP8/MXFP4精度加速(内存占用降低50%+)、硬件级稀疏访存优化,以及增强Vector与Cube数据通路。

寒武纪同日宣布,基于vLLM推理框架完成Day 0适配并开源,其自研NeuWare软件生态与BangC编程语言专门针对V4的Compressor、mHC模块编写高性能Kernel,同时支持5D混合并行(TP/PP/SP/DP/EP)与PD分离部署。此外,沐曦、摩尔线程、海光、昆仑芯、平头哥真武、天数智芯等至少8家国产芯片厂商均通过智源FlagOS实现V4-Flash的全量适配与推理部署,FlagOS核心算子库FlagGems全量支持V4算子,彻底脱离CUDA依赖。中国信通院同步启动DeepSeek V4国产化适配测试工作,覆盖芯片、服务器、框架等全环节。
国产算力从“能用”迈向“好用”,云厂商与资本共振
多位业内专家指出,DeepSeek V4在设计之初便将细粒度专家并行方案同时在英伟达GPU和华为昇腾NPU上完成验证,意味着模型原生兼容国产硬件平台。华为昇腾芯片异构计算架构CANN已迭代至8.0版本,配合DeepSeek的算法创新,使得推理侧国产算力已具备成熟商用能力,训练侧也在快速追赶。百度千帆、阿里云百炼、华为云MaaS等主流云平台均在Day 0提供V4 API服务,阿里、字节等头部云厂商从试点转向大规模部署国产算力。
资本市场反应剧烈:4月24日,海光信息、摩尔线程、沐曦股份、中芯国际等国产芯片公司股价全面大涨;券商机构普遍上调国产算力产业链预期,中信证券预计2026年国产算力芯片出货量至少翻倍以上增长。虽然单位算力成本持续下降,但IDC分析指出,更低的Token价格正在扩大AI采用率和负载规模,算力总支出不减反增,形成“成本下降→需求爆发→算力基建扩容”的良性循环。
飞轮加速:模型-芯片-生态三重闭环形成
此轮DeepSeek V4的发布,标志着国产AI产业竞争逻辑的转变——从过去“海外芯片+国产模型”的被动捆绑,转向“国产模型+国产芯片+开源生态”的全栈自主闭环。这一闭环正产生三重飞轮效应:
- 模型层面:DeepSeek V4的开源技术创新(CSA/HCA、Muon优化器等)可被其他国产模型快速吸收,提升国内整体大模型水平。
- 芯片层面:Day 0适配倒逼国产芯片厂商在软件栈(寒武纪NeuWare、华为CANN、沐曦KernelSwift)和硬件设计上持续迭代,据FlagOS反馈,新模型算子可实现“无需芯片厂商逐一适配,即时可用”。
- 生态层面:小米MiMo-V2.5等后续开源模型也选择多家国产芯片首发,显示出“国产开源大模型集体适配国产芯片”的集群效应。从算力通信、先进封装到芯模协同,全产业链正以前所未有的速度协同共振。
正如业内评价:DeepSeek V4+昇腾950的组合,证明了在国产算力底座上同样可以孕育全球领先的模型能力。国产算力生态已驶入飞轮加速的轨道。