“Token”时代,云厂商的生存法则变了

随着大模型与智能体应用的爆发,IT行业正在经历一场深刻的计价单位变革。过去,企业购买云服务习惯于按照服务器、存储空间或带宽付费;而现在,以“Token”(词元)为单位的消耗模式正成为主流。黄仁勋曾戏言“发Token当工资”,而阿里、腾讯等巨头近期纷纷上调AI相关产品价格,最高涨幅超30%,这标志着云计算“只降不升”的惯例被打破,“Token经济”正式到来。

从算力堆砌到Token运营

在传统云计算时代,厂商的核心竞争力在于资源的规模和性价比,卖的是裸金属或虚拟机。但在AI云原生时代,模型成为了软件的核心,而Token则是衡量模型能力调用的直接指标。

以字节跳动为例,其旗下火山引擎披露,截至2025年12月,豆包大模型日均Token调用量已超50万亿,半年增长200%。字节正试图通过“Token跳动”的逻辑重构云服务市场:

  • 激进定价策略: 火山引擎通过“甩卖”模式,大幅降低AI硬件及云端调用成本。例如,对于AI玩具厂商,用户永久调用云端大模型仅需几十元,远低于自建服务器的数百万成本。
  • 场景化捆绑: 字节不仅卖Token,还推出了如“豆包助手API”等增值服务,将应用层的能力封装开放,从“卖水”(基础Token)升级为“卖饮料”(成套服务)。
  • 全生态入口: 从AI手机合作到AI玩具框架,字节试图通过硬件载体锁定Token的消耗出口。

这种策略正在倒逼传统云厂商改变生存法则。过去云厂商靠IaaS(基础设施即服务)规模效应获利,现在必须思考如何在MaaS(模型即服务)和SaaS(软件即服务)层通过高附加值的智能服务来变现。

“Token”时代,云厂商的生存法则变了

“有效Token”成为新的技术护城河

随着价格战的开启,单纯比拼Token单价的模式已难以为继,厂商们开始在“有效Token”和“Token效率”上寻找技术差异。

  • 拒绝无效输出: 阿里云在近期发布Qwen3-Next系列时强调,不仅要跑得快,更要减少无效Token。如果一个模型输出冗长但结果很差,不仅浪费用户的Token配额,也增加了云厂商的推理成本。因此,提升模型的“含金量”和推理效率成为核心竞争力。
  • 系统级优化降本: 小米近期宣布其自研Agent效率系统可将算力成本降低71.2%。这说明,未来云厂商的利润空间不仅取决于Token单价,更取决于底层调度系统对算力资源的极致利用。
  • 智能体(Agent)的落地能力: 火山引擎在FORCE原动力大会上指出,企业落地Agent面临权限管理和确定性两大挑战。谁能提供更成熟的企业级Agent平台(如Trae、Agentkit),解决“傻瓜式”接入问题,谁就能攫取高价值的B端Token消耗。

竞争维度的延伸:从云端到终端

Token时代的竞争不再局限于数据中心,而是延伸到了离用户最近的终端设备。

  • 硬件载体争夺: 字节跳动积极寻求与vivo、联想等厂商合作预装AI插件;阿里夸克AI眼镜3天销量破3000台;华为、小米也在布局AI手机。这些设备将成为Token消耗的巨型入口。
  • 云端协同架构: 未来的云服务将是“端+云”的结合。终端负责实时交互和轻量化任务(消耗部分Token),复杂计算回流云端。云厂商需要提供无缝衔接的AI基础设施,确保无论Token在哪里产生,都能被有效捕获和计费。

存储与网络的连锁反应

Token爆发带来的算力需求正在引发产业链的连锁反应。

  • 内存需求激增: 随着大模型上下文长度增加(如阿里强调的20万Token以上长文本推理),对高性能内存(DDR5)的需求呈指数级上升。尽管近期因OpenAI采购传闻导致内存价格短暂回落,但长期看,算力基础设施的扩容将是刚需。
  • 芯片国产化加速: 壁仞科技等国产算力厂商在2025年迎来商业化爆发,收入增长超200%。在“Token即收入”的驱动下,云厂商将更愿意尝试高性能国产芯片,以摆脱对单一供应商的依赖并优化成本结构。

结语

在“Token时代”,云厂商的生存法则已彻底改变。昔日的“资源倒爷”如果不转型为“智能运营商”,将面临被淘汰的风险。谁能用更低的成本生产更有效的Token,并将其顺畅地输送到终端应用、企业智能体中,谁就能在新一轮的AI军备竞赛中掌握定价权。正如马云所言,别用旧地图找新大陆,云厂商的未来,藏在每一个跳动的Token里。