华为自研HBM性能翻倍!昇腾950DT芯片8月提前问世,DeepSeek将优先部署

自研HBM突破:HiBL 1.0与HiZQ 2.0双线出击,性能翻倍

华为在2025年全联接大会上正式公布了昇腾950系列的芯片架构,其中自研HBM成为最大亮点。针对推理Prefill和推荐场景,华为推出了低成本HBM——HiBL 1.0,大幅降低投资成本;而面向推理Decode和训练场景,则开发了高性能HBM——HiZQ 2.0,内存容量达到144GB,内存访问带宽飙升至4TB/s,相比前代Ascend 910C实现了“性能翻倍还多”。此外,950系列互联带宽提升2.5倍至2TB/s,并原生支持FP8/MXFP8/MXFP4/HiF8等低精度数据格式,为模型调优和部署扫清障碍。

昇腾950DT 8月上线:算力迭代“一年一代”,华为云优先部署

华为云高层在2026华为云INSPIRE创想者大会智能汽车论坛上确认,全新昇腾950DT芯片将于8月份正式上线华为云。该芯片大幅提升向量算力、显存带宽与互联带宽,且编程更友好、模型调优更简单。华为云已基于自研芯片在贵安、芜湖、内蒙古部署大规模算力集群,并构建全球存算网。同期发布的Atlas 950超节点采用昇腾950DT,支持8192卡规模,FP8算力达8E FLOPS,训练性能相比Atlas 900提升17倍,推理性能提升26.5倍。华为云明确“一年一代、算力翻倍”的演进路线,2026年Q4将推出Atlas 950 SuperCluster 50万卡集群。

华为自研HBM性能翻倍!昇腾950DT芯片8月提前问世,DeepSeek将优先部署

DeepSeek V4引爆需求:国产AI算力底座进入“疯抢”模式

DeepSeek V4系列模型(含1.6万亿参数V4-Pro和2840亿参数V4-Flash)发布后,因其对华为昇腾硬件的深度优化,引发中国科技巨头争相采购。字节跳动、腾讯、阿里巴巴等已向华为追加订单,云服务和GPU租赁公司也纷纷下单。DeepSeek V4采用MIT开源许可,支持100万Token超长上下文,且已优先部署于昇腾950平台。尽管受制于美方出口限制,950PR芯片2026年预计出货75万颗,但算力供需仍处于紧平衡状态。阿里云、腾讯云已在V4发布当日上线相关服务,算力需求直接转化为对华为芯片的订单。

灵衢超节点互联:万卡“一台计算机”的工程奇观

为支撑万卡级算力,华为开创了灵衢2.0互联协议,使8192颗昇腾950DT芯片能够像一台计算机一样工作。Atlas 950超节点由128个计算柜、32个互联柜组成,占地面积约1000平方米,总互联带宽达16.3PB/s——超过全球互联网峰值带宽的10倍。华为同时宣布开放灵衢2.0技术规范,过往基于灵衢1.0的Atlas 900超节点已商用部署超300套。基于同架构的Atlas 950 SuperCluster集群规模达52万卡,FP8总算力524 EFLOPS,堪称全球最强算力集群。

昇腾芯片路线图:三年三系列,2028年冲刺百万卡集群

华为明确了未来3年至2028年的芯片路标:包括Ascend 950系列(950PR/950DT)、Ascend 960以及Ascend 970。其中,Ascend 970计划在2028年四季度推出,FP4算力、FP8算力、互联带宽全面翻倍,内存访问带宽至少增1.5倍。对应的Atlas 960超节点最大支持15488卡,FP8总算力达30E FLOPS,训练性能相比950再提升3倍。Atlas 960 SuperCluster更将突破百万卡级,FP8总算力达到2 ZFLOPS。华为正以“超节点+集群”双轮驱动,持续满足全球AI算力爆炸式增长的需求。