首次！DeepSeek-V4-Pro全参数后训练，被第三方在国产卡上跑通

1 个月前

AI资讯

95 阅读

[deepseek 华为昇腾国产AI芯片大模型训练]

华为昇腾950超节点：国产大模型首次拥有“自家发电站”

DeepSeek-V4 Pro的1.6万亿参数模型在华为昇腾950超节点上完成了全参数后训练与推理适配，这是全球顶尖开源模型首次被第三方在非英伟达硬件平台上跑通。此前，大模型训练高度依赖英伟达GPU和CUDA生态，相当于“接入别人的电网”。如今华为昇腾950PR芯片（2026年3月量产）单卡算力是英伟达对华特供版H20的2.87倍，采购价格仅为H200的三分之一到四分之一。DeepSeek V4的技术报告首次将华为Ascend NPU与NVIDIA GPU并列列为硬件验证平台，华为随即宣布“芯模技术协同”全面支持。这意味着中国AI产业已拥有在自身算力基础上训练万亿参数大模型的能力，打破了“离开英伟达就无法训练前沿模型”的旧认知。截至发布次日，已有华为昇腾、寒武纪、海光信息等8家国产AI芯片品牌宣布适配，寒武纪甚至实现了Day 0开箱可用。

混合注意力与MoE融合内核：全参数后训练如何“砍掉”90%缓存

DeepSeek V4 Pro的全参数后训练采用了一套激进的架构创新。其核心是“混合注意力架构”：压缩稀疏注意力（CSA）将4个Token的KV缓存压缩为1个条目，重压缩注意力（HCA）实现128倍的极端压缩，配合BF16/FP8混合精度存储，使100万Token上下文的KV缓存占用从数百GB降至45-60GB，单Token推理浮点运算量仅为前代V3.2的27%。在训练层面，V4全面转向On-Policy Distillation（OPD）范式：先为数学、编程、智能体等每个领域独立微调出专家模型（通过生成式奖励模型GRM减少人工标注），再由学生模型在自己的生成轨迹上通过反向KL散度学习所有专家能力。同时引入流形约束超连接（mHC）——类似在61层神经网络中额外传递一张“原始需求小纸条”，防止信号在深层网络中失真。这套全参数后训练流程首次在华为昇腾NPU上完成验证，细粒度专家并行（EP）方案在两平台均实现1.50-1.96倍的推理加速。

首次！DeepSeek-V4-Pro全参数后训练，被第三方在国产卡上跑通

定价屠刀再出鞘：V4 Pro输出价仅为GPT-5.5 Pro的1.9%

价格策略是V4系列最具冲击力的部分。V4-Flash百万Token输出价仅0.279美元，输入0.14美元；V4-Pro输出价3.48美元，输入1.74美元。相比之下，OpenAI同期发布的GPT-5.5 Pro输出价高达180美元，输出端成本差距达98%；Claude Opus 4.6输出价在12-25美元区间。这意味着用户调用一次闭源顶级模型的预算，可调用V4 Pro数十次。DeepSeek方面坦承，受限于高端算力，V4-Pro服务吞吐有限，预计下半年昇腾950超节点批量上市后价格还将大幅下调。这种“加量不加价”的底气来自工程架构创新——不是靠补贴打价格战，而是通过混合注意力、FP4量化感知训练（万亿参数级模型首次应用）等硬核技术将真实训练与推理成本每代往下打一个数量级。美国大模型成本约为中国的15-20倍，即便论文和模型完全开源，海外厂商短期内也无法跟进降价。

Agent时代的“养龙虾”经济学：V4如何打通规模落地账

V4的产品介绍中“Agent”一词出现了11次，且首次配备标准化Agent能力基准测试。内部员工评测显示，V4-Pro在真实工作流任务（约200个来自50余名工程师的任务）中通过率达67%，优于Anthropic Sonnet 4.5的47%，接近Opus 4.6 Thinking的80%。Codeforces编程竞赛中排名人类选手第23位。更深层的意义在于，V4的混合注意力架构将长上下文推理成本从“奢侈品”变成“标配卡”，为Agent的长时间、多步骤、自主决策提供了经济可行的底层支撑。用户愿意为“养龙虾”（即智能体产品，如OpenClaw、Hermes）付费，这些收入又回流到大模型和芯片研发，形成“市场买单”的良性循环。当韩国巨头Anthropic靠编程产品Claude Code市值反超OpenAI时，DeepSeek以V4抓住了Agent+编程双风口，而其API价格仅为竞品的1/50，有望触发新一轮“经济模型撕裂”。

人才外流与融资启幕：理想主义者的“成人礼”

V4发布的同一天，DeepSeek启动首次外部融资，估值从100亿迅速抬升至200-300亿美元，腾讯、阿里洽接入局。背后是算力瓶颈的紧迫：V4-Pro服务曾多次宕机，核心人才（如R1作者郭达雅、LLM作者王炳宣）被字节、腾讯挖走。创始人梁文锋直接持有84.29%股份，融资后将改变控制结构。技术社区观察到，DeepSeek 300名工程人员中至少10人离职，但这被视作“领先技术能力溢出”的正常流动——本土95后甚至00后AI人才没有“硅谷是老大”的思想钢印，正在打破经验惯性的技术债。从V4的国产化适配看，团队花费两三个月重写华为昇腾算子并完成精度对齐，正是这种“初生牛犊”式的专注力使中国本土团队能打造世界级基础模型。开源并非慈善，而是商业策略：模型免费但服务收费、硬件嵌入授权、定制开发，均可盈利。V4选择MIT协议完全开放，意味着全球落后地区也可免费使用，这本身是对“算力霸权”的祛魅。

首次！DeepSeek-V4-Pro全参数后训练，被第三方在国产卡上跑通

华为昇腾950超节点：国产大模型首次拥有“自家发电站”

混合注意力与MoE融合内核：全参数后训练如何“砍掉”90%缓存

定价屠刀再出鞘：V4 Pro输出价仅为GPT-5.5 Pro的1.9%

Agent时代的“养龙虾”经济学：V4如何打通规模落地账

人才外流与融资启幕：理想主义者的“成人礼”

链接失效反馈