DeepSeek永久降价,其实是瞄准了10万亿美元?

永久降价是技术碾压的后果:KV缓存只有对手的十分之一

同一天,DeepSeek官宣V4-Pro API永久降价75%——把促销价直接焊死成正价。输入缓存未命中仅3元/百万Token,输出6元/百万Token,创全球大模型价格新低。这并非简单的价格战,而是技术结构优势的必然结果。

打开kvcache.ai计算器,输入100万token上下文,DeepSeek V4仅需5.48GB HBM,而同等条件下的GLM5需要60GB。DeepSeek V4是一个1.6万亿参数的巨无霸,KV Cache占用却只有对手的零头。这得益于三项关键创新:

  • MLA(多头潜在注意力机制):早在V2版本就将KV缓存砍掉90%
  • CSA与HCA(混合注意力架构):在V4中进一步把本就极小的缓存再压缩90%
  • DSA(密集跳跃注意力):确保长上下文下计算量不爆炸

极低的缓存占用让DeepSeek可以把缓存命中价格定到0.025元/百万Token——不到Claude Sonnet 4.6同类价格的3%,且能持续缓存数小时。低价不是赔本赚吆喝,而是技术护城河的变现。

融资100亿美元:梁文锋用“研究优先”说服资本

据彭博社消息,DeepSeek正在推进700亿元人民币(约100亿美元)的融资,估值约450亿美元,有望创下中国AI企业史上最大单笔融资纪录。潜在投资者包括国家人工智能产业投资基金、腾讯、IDG资本、砺思资本,京东和网易也在洽谈加入。

DeepSeek永久降价,其实是瞄准了10万亿美元?

梁文锋在至少一次投资者会议上明确表态:主要目标是推动技术边界,而非尽快变现。他承诺继续开发开源AI模型,追求实现通用人工智能(AGI)这一更宏大目标。为此,他在此轮融资中可能个人出资约200亿元人民币。

这种“不赚快钱”的逻辑早有迹可循:DeepSeek不做多模态、不做语音、不做视频,API一降再降。梁文锋是量化基金出身、“Jim Simons的忠实粉丝”,他通过直接与间接持股控制公司约84.29%股权,表决权100%。融资消息传出前,他已提前完成了关键的股权调整。

十万亿美元的棋盘:用便宜内存替代昂贵算力

DeepSeek真正的星辰大海不是卖编程套餐或语音助手,而是参与塑造一个价值10万亿美元级别的AI硬件生态。这个战略分为三个层次:

第一层:SSD与NAND闪存。 KV Cache被压缩到极小后,可以高效卸载(offload)到SSD上,需要时快速加载回HBM。这延长了缓存保存时间,减轻HBM压力,变相给GPU计算单元松绑。

第二层:LPDDR内存。 SGLang团队研究表明,LPDDR可作为“权重暂存区”——模型权重先放在LPDDR中,需要时流式传输到HBM,大幅缓解容量压力。国产LPDDR速度只落后0.5代,密度落后1代,追赶脚步已近。

第三层:GPU/ASIC的减压。 Engram模块用LPDDR中的哈希查表替代Transformer前向传播计算,本质是用每比特成本极低的“内存读取”替代每比特成本极高的“GPU运算”。这对中国AI芯片意义重大——由于EUV光刻机受限,国产GPU在原始FLOPs上落后,但用更多便宜内存替代昂贵算力,就实现了“换道超车”。

再加上TileLang——DeepSeek投资的跨硬件内核编译框架,一套代码可跑在多种硬件平台上,绕过了“CUDA护城河”。国产芯片厂商因此可能获得生态层面的突破。

终极使命:让AGI训练从“烧不起”变成“烧得起”

大规模强化学习(RL)后训练和递归自我改进(RSI)需要生成海量推理轨迹——万亿级token的计算成本极其恐怖。百万上下文的长程任务要求轨迹本身也足够长。RSI则更加大胆:让AI自己设计实验、执行实验、分析结果、改进自身,对算力的需求是无底洞。

从MoE到MLA,从DSA到CSA,从Engram到TileLang,从KV Cache压缩到LPDDR流式加载——所有这些创新最终汇聚到同一个终点:当更多硬件选择变得可用、当算力需求被技术创新大幅压低,DeepSeek就能以更低的成本启动更大规模的训练。宁德时代投资DeepSeek,正是因为要锁定未来AI数据中心的储能订单;京东、网易各有自己的战略诉求。

这不是一个卖模型的故事,而是一个用技术重构硬件成本结构、进而冲击AGI巅峰的战略叙事。梁文锋不是疯子,他是棋手。