首次!DeepSeek-V4-Pro全参数后训练,被第三方在国产卡上跑通
华为昇腾950超节点:国产大模型首次拥有“自家发电站”
DeepSeek-V4 Pro的1.6万亿参数模型在华为昇腾950超节点上完成了全参数后训练与推理适配,这是全球顶尖开源模型首次被第三方在非英伟达硬件平台上跑通。此前,大模型训练高度依赖英伟达GPU和CUDA生态,相当于“接入别人的电网”。如今华为昇腾950PR芯片(2026年3月量产)单卡算力是英伟达对华特供版H20的2.87倍,采购价格仅为H200的三分之一到四分之一。DeepSeek V4的技术报告首次将华为Ascend NPU与NVIDIA GPU并列列为硬件验证平台,华为随即宣布“芯模技术协同”全面支持。这意味着中国AI产业已拥有在自身算力基础上训练万亿参数大模型的能力,打破了“离开英伟达就无法训练前沿模型”的旧认知。截至发布次日,已有华为昇腾、寒武纪、海光信息等8家国产AI芯片品牌宣布适配,寒武纪甚至实现了Day 0开箱可用。
混合注意力与MoE融合内核:全参数后训练如何“砍掉”90%缓存
DeepSeek V4 Pro的全参数后训练采用了一套激进的架构创新。其核心是“混合注意力架构”:压缩稀疏注意力(CSA)将4个Token的KV缓存压缩为1个条目,重压缩注意力(HCA)实现128倍的极端压缩,配合BF16/FP8混合精度存储,使100万Token上下文的KV缓存占用从数百GB降至45-60GB,单Token推理浮点运算量仅为前代V3.2的27%。在训练层面,V4全面转向On-Policy Distillation(OPD)范式:先为数学、编程、智能体等每个领域独立微调出专家模型(通过生成式奖励模型GRM减少人工标注),再由学生模型在自己的生成轨迹上通过反向KL散度学习所有专家能力。同时引入流形约束超连接(mHC)——类似在61层神经网络中额外传递一张“原始需求小纸条”,防止信号在深层网络中失真。这套全参数后训练流程首次在华为昇腾NPU上完成验证,细粒度专家并行(EP)方案在两平台均实现1.50-1.96倍的推理加速。

定价屠刀再出鞘:V4 Pro输出价仅为GPT-5.5 Pro的1.9%
价格策略是V4系列最具冲击力的部分。V4-Flash百万Token输出价仅0.279美元,输入0.14美元;V4-Pro输出价3.48美元,输入1.74美元。相比之下,OpenAI同期发布的GPT-5.5 Pro输出价高达180美元,输出端成本差距达98%;Claude Opus 4.6输出价在12-25美元区间。这意味着用户调用一次闭源顶级模型的预算,可调用V4 Pro数十次。DeepSeek方面坦承,受限于高端算力,V4-Pro服务吞吐有限,预计下半年昇腾950超节点批量上市后价格还将大幅下调。这种“加量不加价”的底气来自工程架构创新——不是靠补贴打价格战,而是通过混合注意力、FP4量化感知训练(万亿参数级模型首次应用)等硬核技术将真实训练与推理成本每代往下打一个数量级。美国大模型成本约为中国的15-20倍,即便论文和模型完全开源,海外厂商短期内也无法跟进降价。
Agent时代的“养龙虾”经济学:V4如何打通规模落地账
V4的产品介绍中“Agent”一词出现了11次,且首次配备标准化Agent能力基准测试。内部员工评测显示,V4-Pro在真实工作流任务(约200个来自50余名工程师的任务)中通过率达67%,优于Anthropic Sonnet 4.5的47%,接近Opus 4.6 Thinking的80%。Codeforces编程竞赛中排名人类选手第23位。更深层的意义在于,V4的混合注意力架构将长上下文推理成本从“奢侈品”变成“标配卡”,为Agent的长时间、多步骤、自主决策提供了经济可行的底层支撑。用户愿意为“养龙虾”(即智能体产品,如OpenClaw、Hermes)付费,这些收入又回流到大模型和芯片研发,形成“市场买单”的良性循环。当韩国巨头Anthropic靠编程产品Claude Code市值反超OpenAI时,DeepSeek以V4抓住了Agent+编程双风口,而其API价格仅为竞品的1/50,有望触发新一轮“经济模型撕裂”。
人才外流与融资启幕:理想主义者的“成人礼”
V4发布的同一天,DeepSeek启动首次外部融资,估值从100亿迅速抬升至200-300亿美元,腾讯、阿里洽接入局。背后是算力瓶颈的紧迫:V4-Pro服务曾多次宕机,核心人才(如R1作者郭达雅、LLM作者王炳宣)被字节、腾讯挖走。创始人梁文锋直接持有84.29%股份,融资后将改变控制结构。技术社区观察到,DeepSeek 300名工程人员中至少10人离职,但这被视作“领先技术能力溢出”的正常流动——本土95后甚至00后AI人才没有“硅谷是老大”的思想钢印,正在打破经验惯性的技术债。从V4的国产化适配看,团队花费两三个月重写华为昇腾算子并完成精度对齐,正是这种“初生牛犊”式的专注力使中国本土团队能打造世界级基础模型。开源并非慈善,而是商业策略:模型免费但服务收费、硬件嵌入授权、定制开发,均可盈利。V4选择MIT协议完全开放,意味着全球落后地区也可免费使用,这本身是对“算力霸权”的祛魅。