华为自研HBM性能翻倍！昇腾950DT芯片8月提前问世，DeepSeek将优先部署

1 个月前

AI资讯

115 阅读

DeepSeek 华为自研HBM 昇腾950DT

自研HBM突破：HiBL 1.0与HiZQ 2.0双线出击，性能翻倍

华为在2025年全联接大会上正式公布了昇腾950系列的芯片架构，其中自研HBM成为最大亮点。针对推理Prefill和推荐场景，华为推出了低成本HBM——HiBL 1.0，大幅降低投资成本；而面向推理Decode和训练场景，则开发了高性能HBM——HiZQ 2.0，内存容量达到144GB，内存访问带宽飙升至4TB/s，相比前代Ascend 910C实现了“性能翻倍还多”。此外，950系列互联带宽提升2.5倍至2TB/s，并原生支持FP8/MXFP8/MXFP4/HiF8等低精度数据格式，为模型调优和部署扫清障碍。

昇腾950DT 8月上线：算力迭代“一年一代”，华为云优先部署

华为云高层在2026华为云INSPIRE创想者大会智能汽车论坛上确认，全新昇腾950DT芯片将于8月份正式上线华为云。该芯片大幅提升向量算力、显存带宽与互联带宽，且编程更友好、模型调优更简单。华为云已基于自研芯片在贵安、芜湖、内蒙古部署大规模算力集群，并构建全球存算网。同期发布的Atlas 950超节点采用昇腾950DT，支持8192卡规模，FP8算力达8E FLOPS，训练性能相比Atlas 900提升17倍，推理性能提升26.5倍。华为云明确“一年一代、算力翻倍”的演进路线，2026年Q4将推出Atlas 950 SuperCluster 50万卡集群。

华为自研HBM性能翻倍！昇腾950DT芯片8月提前问世，DeepSeek将优先部署

DeepSeek V4引爆需求：国产AI算力底座进入“疯抢”模式

DeepSeek V4系列模型（含1.6万亿参数V4-Pro和2840亿参数V4-Flash）发布后，因其对华为昇腾硬件的深度优化，引发中国科技巨头争相采购。字节跳动、腾讯、阿里巴巴等已向华为追加订单，云服务和GPU租赁公司也纷纷下单。DeepSeek V4采用MIT开源许可，支持100万Token超长上下文，且已优先部署于昇腾950平台。尽管受制于美方出口限制，950PR芯片2026年预计出货75万颗，但算力供需仍处于紧平衡状态。阿里云、腾讯云已在V4发布当日上线相关服务，算力需求直接转化为对华为芯片的订单。

灵衢超节点互联：万卡“一台计算机”的工程奇观

为支撑万卡级算力，华为开创了灵衢2.0互联协议，使8192颗昇腾950DT芯片能够像一台计算机一样工作。Atlas 950超节点由128个计算柜、32个互联柜组成，占地面积约1000平方米，总互联带宽达16.3PB/s——超过全球互联网峰值带宽的10倍。华为同时宣布开放灵衢2.0技术规范，过往基于灵衢1.0的Atlas 900超节点已商用部署超300套。基于同架构的Atlas 950 SuperCluster集群规模达52万卡，FP8总算力524 EFLOPS，堪称全球最强算力集群。

昇腾芯片路线图：三年三系列，2028年冲刺百万卡集群

华为明确了未来3年至2028年的芯片路标：包括Ascend 950系列（950PR/950DT）、Ascend 960以及Ascend 970。其中，Ascend 970计划在2028年四季度推出，FP4算力、FP8算力、互联带宽全面翻倍，内存访问带宽至少增1.5倍。对应的Atlas 960超节点最大支持15488卡，FP8总算力达30E FLOPS，训练性能相比950再提升3倍。Atlas 960 SuperCluster更将突破百万卡级，FP8总算力达到2 ZFLOPS。华为正以“超节点+集群”双轮驱动，持续满足全球AI算力爆炸式增长的需求。

华为自研HBM性能翻倍！昇腾950DT芯片8月提前问世，DeepSeek将优先部署

自研HBM突破：HiBL 1.0与HiZQ 2.0双线出击，性能翻倍

昇腾950DT 8月上线：算力迭代“一年一代”，华为云优先部署

DeepSeek V4引爆需求：国产AI算力底座进入“疯抢”模式

灵衢超节点互联：万卡“一台计算机”的工程奇观

昇腾芯片路线图：三年三系列，2028年冲刺百万卡集群

链接失效反馈