一天狂烧120万亿，字节干成了Token工厂

1 个月前

AI资讯

32 阅读

字节跳动火山引擎][token工厂 ai产业

随着AI应用的广泛落地，Token（AI处理的基本单位）的使用量迅速增长。公开资料显示，中国目前日均消耗的Token量已达140万亿，而摩根大通预测到2030年这个数字将膨胀至1万万亿。这标志着AI产业的焦点已从“模型有多大”转向“Token能不能更便宜、更快、更稳”。

在这样的背景下，火山引擎宣布豆包大模型的日均Token使用量突破120万亿，较三个月前的60万亿实现翻倍增长。这一数据的背后，是字节跳动在AI基础设施和场景应用上的深度布局。

AI模型在运行时需要消耗大量Token，而每个Token的生成背后是复杂的计算流程。包括参数加载、并行计算、缓存管理等环节，每一项都会显著影响成本与效率。当前Token费用暴涨500%，开发者直呼“烧不起”，一些高负载应用每天消耗的Token成本相当于一辆特斯拉的价格。

例如年初爆火的“小龙虾”智能体，用户每天在Token上的花费高达600到1000元。AI Coding、智能客服、图像生成等应用的井喷，让Token的消耗呈现指数级增长。然而国产算力在服务高等级Token（如L3-L5）方面仍存在明显短板，许多集群的实际利用率不足标称算力的一半。

一天狂烧120万亿，字节干成了Token工厂

为应对这一挑战，趋境科技与九源智能计算系统生态联合体在2026中关村论坛上发布“ATaaS”高效能AI Token生产服务平台。该平台围绕四个核心技术构建了一条完整的“Token生产线”，显著提升了国产算力的利用率和服务质量。

这些技术不仅提升了推理效率，也使得国产芯片能够支撑更高等级的Token服务能力，逐步缩小与国际水平的差距。

围绕“如何把Token做便宜”的议题，算力服务商、芯片厂商、互联网大厂和运营商纷纷展开协作。并行科技董事长陈健坦言，在为头部AI企业提供Token服务时曾面临严重亏损，直到趋境科技的技术支持帮助其集群性能提升50%，才勉强实现盈亏平衡。

京东云与趋境科技合作开发的新一代推理引擎，采用PD分离架构，首次响应延迟降低90%，吞吐效率提升120%。华为昇腾也在合作中实现了性能翻倍，甚至在旧集群上优化出超越新硬件的表现。

与此同时，九源联合体副秘书长王豪杰指出，国产算力面临的并非性能问题，而是生态依赖。目前大多数开发者依赖英伟达的CUDA体系，国产卡即便性价比高也难以推广。为破解这一困境，九源正打造统一的国产GPU软件栈，目前已适配多款国产芯片，性能可达A100的85%以上。

在一场由清华大学章明星副教授主持的圆桌对话中，多位产业专家一致认为，Token工厂的构建不仅仅是算力优化的问题，更是系统工程与产业生态的综合挑战。

美团首席工程师钱玉磊提出“TaaS”不仅代表Token as a Service，更应理解为Task as a Service——用户最终买单的是任务完成率与使用体验的乘积。李诚教授则呼吁“算法与系统协同设计”，提出未来可能需要“文言文版”大模型来减少冗余信息。

中国移动陈国指出，当前国产芯片种类繁多但性能不均，生态聚合与标准统一迫在眉睫。天数智芯宋煜强调，芯片制造涉及整条产业链，必须协同推进。而趋境科技杨珂则透露，推理部署参数的选择已成为工程核心难题，甚至需要专门团队持续优化。

这场从“数据中心”向“Token工厂”的转型，才刚刚拉开序幕。谁能在单位Token成本、推理速度与服务稳定性之间找到最优解，谁就能在未来的AI产业中占据主导地位。