深圳国产芯片成功训练万亿级 AI 大模型:依托华为昇腾 910C,达到工业级运行标准

华为昇腾910C集群完成1.6万亿参数大模型全参数后训练

近日,深圳河套学院AI训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS、计算产品线、2012实验室,协同深智城AI算力平台,依托华为昇腾910C国产AI算力集群,成功对1.6万亿参数的大模型DeepSeek-V4-Pro完成了全参数后训练。此次训练是业界首个由第三方机构基于国产算力集群完成的该类模型全参数后训练工程实践,在此之前,DeepSeek-V4-Pro虽已在国产算力上完成推理部署,但训练环节一直依赖国外算力。项目采用千卡级算力集群,运行全程稳定、无中断,各项指标均达到工业级运行标准,进一步检验了国产算力对不同类型超大参数模型的适配与承载能力。

深圳国产芯片成功训练万亿级 AI 大模型:依托华为昇腾 910C,达到工业级运行标准

技术攻坚:从“能跑”到“能训、训稳、训优”

项目团队通过三大关键技术突破,实现了从模型“能跑”(推理)到“能训、训稳、训优”的跨越。在同等参数量下,业界公开的国产算力全参数后训练案例几乎为零。本次训练将一个1.6万亿参数的MoE模型在千卡集群上以27秒/步的稳定节奏连续奔跑1500余步,运行全程未出现中断。项目仅用1个月时间便基于昇腾910C集群实现了DeepSeek-V4-Pro的全参数续训练与SFT稳定运行,关键训练算子效率提升14%,模型算力利用率(MFU)超过30%,验证了国产AI芯片支撑顶级大模型训练的技术路径完全可行。

千卡集群稳定运行1500步,实战成绩亮眼

训练成果数据尤为亮眼:在长稳训练中完成1500+步,MFU(模型算力利用率)超30%,而业界同类任务在同等参数量下的国产算力公开记录几乎为零。项目团队通过优化训练框架与关键算子,将训练效率提升了14%,同时保证了千卡集群在长达数周的训练过程中零中断。这一实战成绩不仅证明了昇腾910C集群已具备承担工业级万亿参数大模型训练的能力,也为后续更大规模、更长上下文的训练任务积累了宝贵经验。

人才培养“练兵场”:学生团队嵌入国产算力真实场景

深圳河套学院将这次万亿级模型训练攻关作为“练兵场”,把学生直接嵌入国产算力真实训练场景。截至目前,项目已培养学生42名,形成了由青年教师指导、博士生核心攻坚、工程团队支撑的协同培养机制。这种“国产算力支撑、真实任务牵引、学生团队实战、工程能力沉淀”的培养路径,既让学生深度参与了世界级AI工程,也为国产算力生态储备了实战人才。

未来展望:持续优化训练框架,力争效率再突破

下一阶段,深圳河套学院将继续联合合作伙伴,在现有全参数续训练/SFT链路基础上,持续优化训练框架与关键算子,力争实现训练效率再突破,并推进超长上下文训练、强化学习后训练闭环。同时,该项目还将继续完善产教融合模式,为国内AI产业链自主化水平提升和行业应用成本降低提供更多支撑。