“Token”必须死?
大模型的结构性天花板:被压缩的人类语言
当前主流的大语言模型,其核心在于对“Token”(即语言中的词、字等离散符号)进行建模与预测。然而,这一范式在诞生之初就埋下了结构性缺陷。人类大脑的原始认知并非离散的文字序列,而是一个连续、并行的多维活动。人类的语言本身,是大脑为适配有限的通信带宽,对高维感官认知进行的有损压缩协议。当大模型仅在这个“压缩产物”——离散的Token序列上拟合训练时,它永远无法触及那些未被人类语言编码的认知维度,如身体感受、空间直觉或因果干预的具身反馈。这构成了当前AI通往AGI的“结构性天花板”。正如OpenAI前首席科学家Ilya Sutskever和图灵奖得主Yann LeCun所指出,靠堆数据、预测下一个Token的预训练方式已接近收益递减的终点。Yann LeCun甚至直言“大语言模型路线错了”,因为自回归机制的本质是在字符级别做统计复现,而非建模世界的因果规律。这迫使学术界与产业界开始寻找“逃逸”路径。
“逃逸”实验:连续空间范式的成功验证
2026年5月,学术界传来了打破Token迷信的信号。MIT何恺明团队与字节跳动Seed实验室几乎同时发布了里程碑式的论文,证明语言生成的核心建模过程不必依赖于离散的Token空间,完全可以在连续的向量空间内完成,仅在最终输出时才映射回人类可读的文字。
- 何恺明团队的ELF:它采用Flow Matching技术,从噪音出发,在连续的“嵌入空间”中平滑演化到目标结果。仅用32个采样步,其生成质量就超过了传统离散模型需要1024步的结果,而训练数据仅为主流方法的十分之一。
- 字节Seed团队的Cola DLM:该模型先将语言通过Text VAE压缩至更深层的语义潜空间进行建模,再解码回文字。实验证明,这种连续路线的Scaling曲线是健康且有效的,在与同体量自回归模型甚至千亿参数模型的对比中表现优异。

这两项核心研究共同证明了一个关键点:Token并非语言建模的必要条件。连续空间模型可以做得更好、更快、更省,它开辟了一条通往更高效模型的新路径。
巨头们的抉择:下注“统一连续空间”
面对范式转移的暗流,全球AI头部公司正在做出截然不同的战略选择,但殊途同归地指向“统一连续空间”这一方向。
- Google:最为坚决,其Gemini系列从1.0到3.1 Pro始终坚持“原生多模态统一”,将文本、图像、音频、视频等所有模态从一开始就映射到同一个连续向量空间进行训练,消弭了模态之间的边界。2026年发布的Gemini Embedding 2甚至直接原生处理多模态输入。
- OpenAI:走了一条更曲折的路。它认同多模态统一的方向,但砍掉了被视为“算力吞金兽”的视频生成应用(如Sora),转而将算力集中于核心模型与Agent架构,等待更高效、更经济的架构方案成熟后再重新进入。
- 字节跳动:手握抖音/TikTok的海量视频数据,具备工业级验证的先天优势。其Seed团队在论文中直言,其视频生成模型Seedance系列已在应用类似的连续潜空间架构,字节跳动是最有潜力率先在工业规模上验证新范式的公司。
- Anthropic:选择了最独特的路径——刻意回避多模态生成,将所有资源押注在文本推理与代码执行上,并取得了年化25亿美元的Claude Code收入。然而,这被业界视为一种对技术债的积累,若两三年后竞争核心转向统一连续空间,Anthropic将面临被动的局面。
- 独立玩家:Ilya创办的SSI获20亿美元融资,用以押注“下一个范式”;Yann LeCun则创办AMI Labs,专注于在连续空间预测世界因果规律的JEPA路线,两人皆用真金白银为“Token范式终结”下了赌注。
范式转移冲击波:谁将被重构?
如果核心计算全面迁移到连续空间,将对现有AI产业格局产生深远影响。
- “为Token而生”的生意将首当其冲:主打高质量视频离散编码的tokenizer公司(如VQ-VAE、MAGVIT等)将受到巨大冲击。既然语言生成都能在连续空间跑通,天然连续的视觉数据更没有理由被强制离散化。
- “多模态”不再是卖点:当所有模态原生共享一个连续空间时,“多模态能力”将成为基础模型的默认配置,不再是差异化优势。那些致力于模态桥接、对齐的中间层生意将失去存在价值。
- “按token收费”的商业模式将被颠覆:当前自回归模型的成本与token数直接挂钩。而连续空间扩散模型多为固定步数生成,输出长度与算力消耗脱钩。token数将不再是成本的真实度量,这会倒逼行业寻找新的定价体系。
- AI硬件需求或将转移:如果“Token经济学”中的利润空间趋近于零,那么向上走的出路之一,可能就是从追求单一Token的处理速度,转向为支撑连续空间模型所需的更高效、更通用的算力架构,这将对GPU等硬件市场产生新的需求。
通往AGI的第一步:从“模拟语言”到“理解世界”
推翻Token范式,并不等同于直接实现AGI。目前已被验证的连续空间模型,其训练数据依然来源于人类“有损压缩”后的内容。Yann LeCun看到了这一点,因此他押注能预测物理后果的世界模型(JEPA)。这意味着,下一代模型若要突破认知边界,大概率需要从主动探索、环境交互反馈、递归自我改进等途径中获取全新的训练信号,而非依赖人类已有的数据集。
正如哲学家维特根斯坦所言:“我语言的局限,即意味着我世界的局限。”推翻Token化,本质上是在打破AI世界的语言牢笼,让模型能在更接近真实物理世界的连续表征中学习。从“模拟人类语言行为”到“理解世界如何运作”,这是从Token范式到连续空间范式转移的核心意义,也是通往AGI的必经第一步。