一天狂烧120万亿,字节干成了Token工厂
背景:Token成为AI产业核心衡量单位
随着AI应用的广泛落地,Token(AI处理的基本单位)的使用量迅速增长。公开资料显示,中国目前日均消耗的Token量已达140万亿,而摩根大通预测到2030年这个数字将膨胀至1万万亿。这标志着AI产业的焦点已从“模型有多大”转向“Token能不能更便宜、更快、更稳”。
在这样的背景下,火山引擎宣布豆包大模型的日均Token使用量突破120万亿,较三个月前的60万亿实现翻倍增长。这一数据的背后,是字节跳动在AI基础设施和场景应用上的深度布局。
现象:AI烧钱速度惊人,Token成本成关键瓶颈
AI模型在运行时需要消耗大量Token,而每个Token的生成背后是复杂的计算流程。包括参数加载、并行计算、缓存管理等环节,每一项都会显著影响成本与效率。当前Token费用暴涨500%,开发者直呼“烧不起”,一些高负载应用每天消耗的Token成本相当于一辆特斯拉的价格。
例如年初爆火的“小龙虾”智能体,用户每天在Token上的花费高达600到1000元。AI Coding、智能客服、图像生成等应用的井喷,让Token的消耗呈现指数级增长。然而国产算力在服务高等级Token(如L3-L5)方面仍存在明显短板,许多集群的实际利用率不足标称算力的一半。

解决方案:构建高效Token工厂,趋境ATaaS平台发布
为应对这一挑战,趋境科技与九源智能计算系统生态联合体在2026中关村论坛上发布“ATaaS”高效能AI Token生产服务平台。该平台围绕四个核心技术构建了一条完整的“Token生产线”,显著提升了国产算力的利用率和服务质量。
- 六合技术:通过异构协同,将高密度计算任务分配给国产卡,其他任务由更适合的硬件处理,整体集群运营成本降低20%以上。
- 月饼技术:将KV Cache缓存从单机扩展到集群,缓存命中率高达90%,使单台机器每秒处理Token量从3万跃升至30万,成本下降75%以上。
- 双仪技术:在CPU上模拟GPU计算路径,实现资源智能切割和流量秒级切换。
- 万象技术:解决了万卡集群的弹性难题,将万亿参数大模型启动时间从20分钟压缩到10秒,并提供工业级可靠性。
这些技术不仅提升了推理效率,也使得国产芯片能够支撑更高等级的Token服务能力,逐步缩小与国际水平的差距。
影响:产业链协作加速,国产算力生态开始重构
围绕“如何把Token做便宜”的议题,算力服务商、芯片厂商、互联网大厂和运营商纷纷展开协作。并行科技董事长陈健坦言,在为头部AI企业提供Token服务时曾面临严重亏损,直到趋境科技的技术支持帮助其集群性能提升50%,才勉强实现盈亏平衡。
京东云与趋境科技合作开发的新一代推理引擎,采用PD分离架构,首次响应延迟降低90%,吞吐效率提升120%。华为昇腾也在合作中实现了性能翻倍,甚至在旧集群上优化出超越新硬件的表现。
与此同时,九源联合体副秘书长王豪杰指出,国产算力面临的并非性能问题,而是生态依赖。目前大多数开发者依赖英伟达的CUDA体系,国产卡即便性价比高也难以推广。为破解这一困境,九源正打造统一的国产GPU软件栈,目前已适配多款国产芯片,性能可达A100的85%以上。
未来趋势:从“模型能力”到“Token价值”
在一场由清华大学章明星副教授主持的圆桌对话中,多位产业专家一致认为,Token工厂的构建不仅仅是算力优化的问题,更是系统工程与产业生态的综合挑战。
美团首席工程师钱玉磊提出“TaaS”不仅代表Token as a Service,更应理解为Task as a Service——用户最终买单的是任务完成率与使用体验的乘积。李诚教授则呼吁“算法与系统协同设计”,提出未来可能需要“文言文版”大模型来减少冗余信息。
中国移动陈国指出,当前国产芯片种类繁多但性能不均,生态聚合与标准统一迫在眉睫。天数智芯宋煜强调,芯片制造涉及整条产业链,必须协同推进。而趋境科技杨珂则透露,推理部署参数的选择已成为工程核心难题,甚至需要专门团队持续优化。
这场从“数据中心”向“Token工厂”的转型,才刚刚拉开序幕。谁能在单位Token成本、推理速度与服务稳定性之间找到最优解,谁就能在未来的AI产业中占据主导地位。