大厂AI内卷新姿势：Token变成新“PPT”

1 个月前

AI资讯

63 阅读

Token Agent [AI内卷大厂]

Agent一天烧掉十万Token，大厂把成本当“交个朋友”

过去企业把AI当工具，写代码开Copilot，做PPT找个生成器。但现在进入了Agent时代，AI不再是“你主动去用它”，而是一个常驻的智能体24小时跑工作流。拉个百页PPT、拆解万字研报，一个Agent跑通一次完整流程就能轻松烧掉十万Token。对于大厂来说，Token的成本早已不是核心矛盾——他们愿意“当交个朋友”吞下这笔账，因为谁控制了Agent的Token消耗量，谁就掌握了下一代人机交互的入口。这背后是一场新的军备竞赛：不是比谁模型大，而是比谁的Agent能更“豪放”地挥霍Token，同时还能让客户觉得值。

大厂AI内卷新姿势：Token变成新“PPT”

何恺明另辟蹊径：105M参数不走GPT老路，32步把困惑度压到24

当主流大模型还在靠“预测下一个Token”自回归范式堆算力时，何恺明团队发布的ELF（Embedded Language Flows）彻底颠覆了规则。他们没有走GPT的路，而是把语言生成全部留在连续embedding空间里去噪，直到最后一步才离散回Token。结果惊人：仅用105M参数、45B训练Token（比对手少近10倍）、32步采样，就在OpenWebText上把生成困惑度压到24——跑赢了一批主流扩散语言模型。这意味着大厂不再需要烧天量算力训千亿参数模型，用十倍的Token成本就能获得同等甚至更好的生成效果。

连续扩散路线“翻身”：ELF把“连续”和“离散”彻底拆开

扩散语言模型一直有两派：离散派直接在Token空间操作，连续派把Token映射到连续embedding再处理。此前离散路线占上风，因为“语言本身就是离散的”。但ELF证明了问题不是“语言必须离散”，而是“前人没有让连续路线连续到底”。ELF把所有去噪都留在连续embedding空间，直到最后一刻才decode回Token。训练时，离散Token先编码成连续embedding再加噪，模型直接还原干净embedding或预测Token；推理时从高斯噪声出发一路去噪，最后一步切到decode模式。他们还把图像生成领域的CFG（classifier-free guidance）搬了过来，用self-conditioning做条件信号，彻底把“连续表示”和“离散输出”这两个过去反复对齐的问题拆开。

模型厂吃肉，应用厂喝汤：OpenAI和Anthropic独吞89%营收

Token的内卷最终反映在商业版图上。Stripe报告显示，AI公司达到100万美元年化收入的中位时间仅11.5个月。但2026年4月，Anthropic以300亿美元年化收入反超OpenAI的250亿美元，两者合计吃掉89%的AI创业公司营收。剩下11%的市场被32家公司瓜分，平均每家仅占0.34%。头部效应形成飞轮——收入越高算力越大，算力越大模型越强，模型越强客户越多。顶级工程师优先去OpenAI或Anthropic，云巨头给头部公司最优惠的算力协议，企业采购部门直接默认“用ChatGPT”或“用Claude”。这就像移动互联网时代，无论App如何百花齐放，最后躺赚的是苹果和谷歌——模型厂收过路费，算力厂收租金，应用厂只能在夹缝中喝汤。

大厂AI内卷新姿势：Token变成新“PPT”

Agent一天烧掉十万Token，大厂把成本当“交个朋友”

何恺明另辟蹊径：105M参数不走GPT老路，32步把困惑度压到24

连续扩散路线“翻身”：ELF把“连续”和“离散”彻底拆开

模型厂吃肉，应用厂喝汤：OpenAI和Anthropic独吞89%营收

链接失效反馈