大厂AI内卷新姿势:Token变成新“PPT”
Agent一天烧掉十万Token,大厂把成本当“交个朋友”
过去企业把AI当工具,写代码开Copilot,做PPT找个生成器。但现在进入了Agent时代,AI不再是“你主动去用它”,而是一个常驻的智能体24小时跑工作流。拉个百页PPT、拆解万字研报,一个Agent跑通一次完整流程就能轻松烧掉十万Token。对于大厂来说,Token的成本早已不是核心矛盾——他们愿意“当交个朋友”吞下这笔账,因为谁控制了Agent的Token消耗量,谁就掌握了下一代人机交互的入口。这背后是一场新的军备竞赛:不是比谁模型大,而是比谁的Agent能更“豪放”地挥霍Token,同时还能让客户觉得值。

何恺明另辟蹊径:105M参数不走GPT老路,32步把困惑度压到24
当主流大模型还在靠“预测下一个Token”自回归范式堆算力时,何恺明团队发布的ELF(Embedded Language Flows)彻底颠覆了规则。他们没有走GPT的路,而是把语言生成全部留在连续embedding空间里去噪,直到最后一步才离散回Token。结果惊人:仅用105M参数、45B训练Token(比对手少近10倍)、32步采样,就在OpenWebText上把生成困惑度压到24——跑赢了一批主流扩散语言模型。这意味着大厂不再需要烧天量算力训千亿参数模型,用十倍的Token成本就能获得同等甚至更好的生成效果。
连续扩散路线“翻身”:ELF把“连续”和“离散”彻底拆开
扩散语言模型一直有两派:离散派直接在Token空间操作,连续派把Token映射到连续embedding再处理。此前离散路线占上风,因为“语言本身就是离散的”。但ELF证明了问题不是“语言必须离散”,而是“前人没有让连续路线连续到底”。ELF把所有去噪都留在连续embedding空间,直到最后一刻才decode回Token。训练时,离散Token先编码成连续embedding再加噪,模型直接还原干净embedding或预测Token;推理时从高斯噪声出发一路去噪,最后一步切到decode模式。他们还把图像生成领域的CFG(classifier-free guidance)搬了过来,用self-conditioning做条件信号,彻底把“连续表示”和“离散输出”这两个过去反复对齐的问题拆开。
模型厂吃肉,应用厂喝汤:OpenAI和Anthropic独吞89%营收
Token的内卷最终反映在商业版图上。Stripe报告显示,AI公司达到100万美元年化收入的中位时间仅11.5个月。但2026年4月,Anthropic以300亿美元年化收入反超OpenAI的250亿美元,两者合计吃掉89%的AI创业公司营收。剩下11%的市场被32家公司瓜分,平均每家仅占0.34%。头部效应形成飞轮——收入越高算力越大,算力越大模型越强,模型越强客户越多。顶级工程师优先去OpenAI或Anthropic,云巨头给头部公司最优惠的算力协议,企业采购部门直接默认“用ChatGPT”或“用Claude”。这就像移动互联网时代,无论App如何百花齐放,最后躺赚的是苹果和谷歌——模型厂收过路费,算力厂收租金,应用厂只能在夹缝中喝汤。