比预期还要高60% DeepSeek V4参数量有望达到1.6万亿
背景回顾
DeepSeek自成立以来,持续在大模型领域进行技术突破。其V3版本已拥有6700亿参数,采用MoE(混合专家)架构,展现出强大的语言理解和生成能力。V4作为其新一代旗舰模型,从早期曝光到近期技术动作频繁,外界对其期待值不断攀升。
近期DeepSeek更新了其DeepGEMM算子库,虽然公司强调与V4发布无关,但更新内容中包含了FP8-FP4混合算子、对华为昇腾910C芯片的优化、以及Mega MoE和HyperConnection架构的引入。这些技术升级被认为与V4的底层架构演进密切相关。
参数量曝光与架构演进
据网友分析,DeepSeek V4若延续V3的60层结构,每层参数约为25.37亿,则总参数量将达到1.6万亿。即便有所缩减,48层结构也能带来1.25万亿参数的量级,相比V3实现翻倍增长。
核心架构上,Mega MoE技术的引入可能是关键突破。此前Gemini的解析暗示V4的激活专家数量将从V3的256个大幅提升至数千个,从而在不显著增加推理成本的前提下提升模型表现。同时,HyperConnection架构优化了专家间的调度效率,进一步增强模型的灵活性与响应速度。

此外,V4将全面支持INT8量化技术,这有助于降低推理对硬件资源的依赖,提升部署效率。结合昇腾芯片的国产化适配,V4或将实现完全自主可控的AI基础设施闭环。
去CUDA化与国产算力适配
值得关注的是,DeepSeek V4已全面弃用英伟达CUDA生态,转而采用华为昇腾910C芯片与CANN软件框架。这使其成为首个完全在国产算力上训练与部署的万亿参数MoE大模型,标志着中国AI技术自主化的重要进展。
迁移至国产算力并非易事,需要在模型训练、推理优化、框架适配等多个层面进行深度重构。此次适配不仅体现了DeepSeek在算法与硬件协同优化上的能力,也为后续国产大模型的发展提供了可复用的经验路径。
市场预期与商业化布局
市场对DeepSeek V4的发布已有强烈预期。阿里巴巴、字节跳动、腾讯等企业已提前预订数十万片新一代AI芯片,准备在其云服务平台上集成V4模型。这种未发先热的现象反映了企业对高性能、低成本大模型的迫切需求。
DeepSeek也明显加快了产品化进程。自2025年秋季以来,梁文锋多次强调“产品化与商业化”,并组建了专门的产品与设计团队。V4计划以Apache 2.0协议开源,支持企业自主部署与二次开发,进一步扩大其生态影响力。
在用户体验层面,网页端与APP已上线“专家模式”,并开始灰度测试“视觉”模块,被业内解读为V4多模态能力的前端映射。尽管官方API仍以V3.2为主,但V4的灰度测试已悄然铺开,显示出其上线前的稳慎策略。
挑战与未来展望
尽管DeepSeek V4在参数量与架构层面表现亮眼,但也面临多重挑战:
- 算力成本与调度:即使使用稀疏激活技术,万亿参数模型对基础设施的压力依然巨大,尤其在全面迁移至国产芯片后,稳定性与调度效率将面临考验。
- 人才流失风险:自去年底以来,已有数位核心技术作者离职,这对V4后续迭代与长期维护构成潜在隐患。
- 估值与融资压力:随着同行企业陆续上市,DeepSeek当前“无估值、无融资”的状态开始引发内部关注,期权激励与团队稳定性或将受到考验。
不过,若V4如期发布,其在参数量、多模态能力、开源策略与国产适配上的突破,将使其不仅在性能上比肩甚至超越GPT-4,也将在战略层面树立国产大模型的新标杆,推动中国AI产业进一步走向自主与可控。