“Token”必须死？

1 个月前

AI资讯

87 阅读

大语言模型 AGI Token 结构性天花板

大模型的结构性天花板：被压缩的人类语言

当前主流的大语言模型，其核心在于对“Token”（即语言中的词、字等离散符号）进行建模与预测。然而，这一范式在诞生之初就埋下了结构性缺陷。人类大脑的原始认知并非离散的文字序列，而是一个连续、并行的多维活动。人类的语言本身，是大脑为适配有限的通信带宽，对高维感官认知进行的有损压缩协议。当大模型仅在这个“压缩产物”——离散的Token序列上拟合训练时，它永远无法触及那些未被人类语言编码的认知维度，如身体感受、空间直觉或因果干预的具身反馈。这构成了当前AI通往AGI的“结构性天花板”。正如OpenAI前首席科学家Ilya Sutskever和图灵奖得主Yann LeCun所指出，靠堆数据、预测下一个Token的预训练方式已接近收益递减的终点。Yann LeCun甚至直言“大语言模型路线错了”，因为自回归机制的本质是在字符级别做统计复现，而非建模世界的因果规律。这迫使学术界与产业界开始寻找“逃逸”路径。

“逃逸”实验：连续空间范式的成功验证

2026年5月，学术界传来了打破Token迷信的信号。MIT何恺明团队与字节跳动Seed实验室几乎同时发布了里程碑式的论文，证明语言生成的核心建模过程不必依赖于离散的Token空间，完全可以在连续的向量空间内完成，仅在最终输出时才映射回人类可读的文字。

何恺明团队的ELF：它采用Flow Matching技术，从噪音出发，在连续的“嵌入空间”中平滑演化到目标结果。仅用32个采样步，其生成质量就超过了传统离散模型需要1024步的结果，而训练数据仅为主流方法的十分之一。
字节Seed团队的Cola DLM：该模型先将语言通过Text VAE压缩至更深层的语义潜空间进行建模，再解码回文字。实验证明，这种连续路线的Scaling曲线是健康且有效的，在与同体量自回归模型甚至千亿参数模型的对比中表现优异。

“Token”必须死？

这两项核心研究共同证明了一个关键点：Token并非语言建模的必要条件。连续空间模型可以做得更好、更快、更省，它开辟了一条通往更高效模型的新路径。

巨头们的抉择：下注“统一连续空间”

面对范式转移的暗流，全球AI头部公司正在做出截然不同的战略选择，但殊途同归地指向“统一连续空间”这一方向。

Google：最为坚决，其Gemini系列从1.0到3.1 Pro始终坚持“原生多模态统一”，将文本、图像、音频、视频等所有模态从一开始就映射到同一个连续向量空间进行训练，消弭了模态之间的边界。2026年发布的Gemini Embedding 2甚至直接原生处理多模态输入。
OpenAI：走了一条更曲折的路。它认同多模态统一的方向，但砍掉了被视为“算力吞金兽”的视频生成应用（如Sora），转而将算力集中于核心模型与Agent架构，等待更高效、更经济的架构方案成熟后再重新进入。
字节跳动：手握抖音/TikTok的海量视频数据，具备工业级验证的先天优势。其Seed团队在论文中直言，其视频生成模型Seedance系列已在应用类似的连续潜空间架构，字节跳动是最有潜力率先在工业规模上验证新范式的公司。
Anthropic：选择了最独特的路径——刻意回避多模态生成，将所有资源押注在文本推理与代码执行上，并取得了年化25亿美元的Claude Code收入。然而，这被业界视为一种对技术债的积累，若两三年后竞争核心转向统一连续空间，Anthropic将面临被动的局面。
独立玩家：Ilya创办的SSI获20亿美元融资，用以押注“下一个范式”；Yann LeCun则创办AMI Labs，专注于在连续空间预测世界因果规律的JEPA路线，两人皆用真金白银为“Token范式终结”下了赌注。

范式转移冲击波：谁将被重构？

如果核心计算全面迁移到连续空间，将对现有AI产业格局产生深远影响。

“为Token而生”的生意将首当其冲：主打高质量视频离散编码的tokenizer公司（如VQ-VAE、MAGVIT等）将受到巨大冲击。既然语言生成都能在连续空间跑通，天然连续的视觉数据更没有理由被强制离散化。
“多模态”不再是卖点：当所有模态原生共享一个连续空间时，“多模态能力”将成为基础模型的默认配置，不再是差异化优势。那些致力于模态桥接、对齐的中间层生意将失去存在价值。
“按token收费”的商业模式将被颠覆：当前自回归模型的成本与token数直接挂钩。而连续空间扩散模型多为固定步数生成，输出长度与算力消耗脱钩。token数将不再是成本的真实度量，这会倒逼行业寻找新的定价体系。
AI硬件需求或将转移：如果“Token经济学”中的利润空间趋近于零，那么向上走的出路之一，可能就是从追求单一Token的处理速度，转向为支撑连续空间模型所需的更高效、更通用的算力架构，这将对GPU等硬件市场产生新的需求。

通往AGI的第一步：从“模拟语言”到“理解世界”

推翻Token范式，并不等同于直接实现AGI。目前已被验证的连续空间模型，其训练数据依然来源于人类“有损压缩”后的内容。Yann LeCun看到了这一点，因此他押注能预测物理后果的世界模型（JEPA）。这意味着，下一代模型若要突破认知边界，大概率需要从主动探索、环境交互反馈、递归自我改进等途径中获取全新的训练信号，而非依赖人类已有的数据集。

正如哲学家维特根斯坦所言：“我语言的局限，即意味着我世界的局限。”推翻Token化，本质上是在打破AI世界的语言牢笼，让模型能在更接近真实物理世界的连续表征中学习。从“模拟人类语言行为”到“理解世界如何运作”，这是从Token范式到连续空间范式转移的核心意义，也是通往AGI的必经第一步。

“Token”必须死？

大模型的结构性天花板：被压缩的人类语言

“逃逸”实验：连续空间范式的成功验证

巨头们的抉择：下注“统一连续空间”

范式转移冲击波：谁将被重构？

通往AGI的第一步：从“模拟语言”到“理解世界”

链接失效反馈