DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

1 个月前

AI资讯

113 阅读

DeepSeek V4 国产算力芯模协同飞轮加速

百万上下文普惠化，架构革新打通成本关

DeepSeek V4预览版于2026年4月24日上线并开源，包含1.6万亿总参数的Pro版与2840亿总参数的Flash版，全系列支持百万级上下文窗口。技术报告显示，V4通过混合注意力机制（压缩稀疏注意力CSA+高强度压缩注意力HCA）与流形约束超连接（mHC），在100万Token场景下，Pro版推理FLOPs较前代降低3.7倍，KV Cache降低9.5倍；Flash版更将计算量压缩至1/9.8、显存占用降至1/13.7。同时，团队设计了一体化融合内核、FP4量化感知训练及异构KV缓存架构，从训练到推理全链路实现极致效率。

性能方面，V4-Pro在Agentic Coding、数学与STEM推理等评测中超越所有已公开开源模型，比肩世界顶级闭源模型，Agent能力被内部员工评价“优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式”。成本同步降至“白菜价”：Pro版百万Token输入1元（缓存命中）/12元（缓存未命中），输出24元；Flash版更分别低至0.2元、1元、2元，仅为海外对标模型Opus 4.6价格的14%-35%。官方明确表示，下半年昇腾950超节点批量上市后，Pro价格将大幅下调。

DeepSeek选昇腾首发，芯片厂商集体Day 0冲刺

本次发布最关键的信号是全面拥抱国产算力。华为昇腾率先实现全系列产品（950/ A3/ A2等）对V4-Pro与V4-Flash的深度适配。基于昇腾950超节点，V4-Pro在8K输入下实现TPOT约20ms、单卡Decode吞吐4700 TPS；Flash版在相同场景下TPOT约10ms、单卡吞吐1600 TPS。这一极低时延得益于昇腾950的三大底层升级：原生支持FP8/MXFP8/MXFP4精度加速（内存占用降低50%+）、硬件级稀疏访存优化，以及增强Vector与Cube数据通路。

DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

寒武纪同日宣布，基于vLLM推理框架完成Day 0适配并开源，其自研NeuWare软件生态与BangC编程语言专门针对V4的Compressor、mHC模块编写高性能Kernel，同时支持5D混合并行（TP/PP/SP/DP/EP）与PD分离部署。此外，沐曦、摩尔线程、海光、昆仑芯、平头哥真武、天数智芯等至少8家国产芯片厂商均通过智源FlagOS实现V4-Flash的全量适配与推理部署，FlagOS核心算子库FlagGems全量支持V4算子，彻底脱离CUDA依赖。中国信通院同步启动DeepSeek V4国产化适配测试工作，覆盖芯片、服务器、框架等全环节。

国产算力从“能用”迈向“好用”，云厂商与资本共振

多位业内专家指出，DeepSeek V4在设计之初便将细粒度专家并行方案同时在英伟达GPU和华为昇腾NPU上完成验证，意味着模型原生兼容国产硬件平台。华为昇腾芯片异构计算架构CANN已迭代至8.0版本，配合DeepSeek的算法创新，使得推理侧国产算力已具备成熟商用能力，训练侧也在快速追赶。百度千帆、阿里云百炼、华为云MaaS等主流云平台均在Day 0提供V4 API服务，阿里、字节等头部云厂商从试点转向大规模部署国产算力。

资本市场反应剧烈：4月24日，海光信息、摩尔线程、沐曦股份、中芯国际等国产芯片公司股价全面大涨；券商机构普遍上调国产算力产业链预期，中信证券预计2026年国产算力芯片出货量至少翻倍以上增长。虽然单位算力成本持续下降，但IDC分析指出，更低的Token价格正在扩大AI采用率和负载规模，算力总支出不减反增，形成“成本下降→需求爆发→算力基建扩容”的良性循环。

飞轮加速：模型-芯片-生态三重闭环形成

此轮DeepSeek V4的发布，标志着国产AI产业竞争逻辑的转变——从过去“海外芯片+国产模型”的被动捆绑，转向“国产模型+国产芯片+开源生态”的全栈自主闭环。这一闭环正产生三重飞轮效应：

模型层面：DeepSeek V4的开源技术创新（CSA/HCA、Muon优化器等）可被其他国产模型快速吸收，提升国内整体大模型水平。
芯片层面：Day 0适配倒逼国产芯片厂商在软件栈（寒武纪NeuWare、华为CANN、沐曦KernelSwift）和硬件设计上持续迭代，据FlagOS反馈，新模型算子可实现“无需芯片厂商逐一适配，即时可用”。
生态层面：小米MiMo-V2.5等后续开源模型也选择多家国产芯片首发，显示出“国产开源大模型集体适配国产芯片”的集群效应。从算力通信、先进封装到芯模协同，全产业链正以前所未有的速度协同共振。

正如业内评价：DeepSeek V4+昇腾950的组合，证明了在国产算力底座上同样可以孕育全球领先的模型能力。国产算力生态已驶入飞轮加速的轨道。

DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

百万上下文普惠化，架构革新打通成本关

DeepSeek选昇腾首发，芯片厂商集体Day 0冲刺

国产算力从“能用”迈向“好用”，云厂商与资本共振

飞轮加速：模型-芯片-生态三重闭环形成

链接失效反馈