从Token到词元：全模态时代的基模与交互入口

3 个月前

AI资讯

85 阅读

多模态 Token 词元基模

全模态统一的基石：Token的演进与模思智能的布局

在通用人工智能（AGI）的宏大叙事中，一个看似基础的概念——Token，正经历着从内涵到外延的深刻变革。它不再仅仅是文本处理中的最小语义单元，而是演变为一个能够承载语音、图像、视频等多维感知信息的统一离散化表达。这种从“文本符号”到“全模态词元”的跃迁，正在重塑AI的基座模型架构与交互入口，而模思智能（MOSI）的崛起，正是这一技术浪潮中的典型注脚。

Token，或称词元，在传统自然语言处理（NLP）中，是模型理解、生成和处理语言的基本原子。复旦大学邱锡鹏教授将其翻译为“词元”，直观地揭示了其作为语言构建基石的属性。然而，随着AI从离散文本走向连续感知，从低频批量输入走向高频流式输入，Token的形态与作用正在发生根本性变化。正如参考资料所指出的，其生产方式、组织结构与消耗效率，将直接决定下一代AI系统的能力上限与成本结构。

从Token到词元：全模态时代的基模与交互入口

在这场变革中，模思智能选择了一条非共识路径。在2023年“百模大战”聚焦纯文本模型时，邱锡鹏团队便敏锐地意识到底层技术路径的趋同与基础研究多样性的萎缩。他们没有继续在红海中加码，而是从语音切入，旨在走向全模态的统一。这一选择的背后是深刻的洞察：音频信息密度远高于文本，天然包含语调、节奏、情绪等难以言传的信号，且更易于与环境、动作形成连续的输入流，从而更接近真实世界的人机交互。

当Token不再只是文本中的离散符号，而成为连续感知信息的离散化表达后，模型要解决的核心问题也从“理解一句话”转向“理解一个情境”。模思智能将此能力概括为“情境智能”（Contextual Intelligence），它以持续感知、动态记忆与环境理解为基础，使AI能够在真实世界中进行自适应交互。这一愿景的实现，依赖于一系列坚实的里程碑：

SpeechGPT（2023年5月）：较早验证了“离散化端到端语音大模型”的可行性，使机器理解“说的话”与“写的话”有机会在同一框架内完成。
SpeechTokenizer（2023年8月）：将上述路线工程化，成为融合语义Token与声学Token的音频离散化编码器。
AnyGPT（2024年2月）：首次将语音、文本、图像、视频统一映射至离散Token体系，提出了真正意义上的离散化全模态基座模型架构。

这一系列技术突破，最终在2025年7月发布的MOSS-TTSD（国内首个基于百万小时音频训练的开源中英双语对话语音模型）和同年11月发布的下一代能动性模型体系NEX中得到延展和验证，将离散化架构的优势延伸至Agent与生产力场景。模思智能的融资（由IDG资本领投，数亿元天使轮）和团队构成（复旦NLP体系，博士占比近半），也显示出资本市场对这一非共识路径的认可，以及产业界对顶尖人才密度的渴求。

算力与需求的碰撞：Token经济爆发与产业重构

如果说全模态Token是AI通往AGI的“通用语言”，那么Token的消耗量则是衡量AI产业活跃度的“数字石油”。从2025年到2026年，Token经济的爆发性增长正在引发产业链的深刻重构。

首先，需求端的增长曲线极为陡峭。国家数据局数据显示，中国日均Token消耗量从2024年初的1000亿，暴增至2025年6月底的30万亿，一年半内增长超300倍。IDC预测，到2030年，全球年度Token消耗量将从2025年的0.0005 Peta Tokens飙升至15.2万Peta Tokens，增长超过3亿倍。这一预测背后，是AI应用场景的深度渗透：

Agent的普及：以Claude Code为代表的编程智能体和OpenClaw为代表的通用Agent，正在将AI从“问答工具”转变为“生产力工具”。一次智能体任务包含多轮推理、工具调用，Token消耗远超普通对话，从根本上改变了软件构建方式，也催生了如“Coding Plan”和“Token Plan”等新的订阅模式（如MiniMax）。
多模态内容创作：用户利用视频生成模型（如Seedance 1.0）创作整部漫剧，单次调用的Token消耗量极大，推动了火山引擎等平台Token调用量的指数级增长。

其次，需求的井喷直接冲击了供给端的成本结构。2026年3月，阿里云宣布因全球AI需求爆发与供应链成本上升而上调算力产品价格，标志着AI算力“廉价时代”的终结。火山引擎日均调用量突破百万亿Tokens，亚马逊AWS和阿里云纷纷将MaaS（模型即服务）提升至战略核心。这背后是亚马逊管理层的判断：长远来看，MaaS的收入贡献将不亚于其核心的EC2业务。

这场围绕Token的“云战争”也催生了新的商业逻辑和技术创新：

成本效率成为核心竞争力：当Token成为核心生产资源，如何极致压缩成本、提升效率成为关键。中国开源模型因其高性价比，在全球市场迅速抢占份额（2026年2月，全球前五模型中中国占四席）。同时，技术创新也在突破瓶颈，如多Token预测技术可将推理速度提升三倍，MoE架构、推理加速等都在努力重塑Token的成本曲线。
商业模式的演进：IDC指出，企业需建立“Token精细化管理能力”，将Token支出视为独立核算的“数字石油”。从按次调用到“燃料+成本”的订阅模式，再到未来可能出现的Token预算编制，AI服务的商业形态正在从技术服务向核心资源供给转变。

综上所述，从“Token”到“词元”，不仅是术语的翻译，更是技术范式的升维。它预示着AI正从单一模态的智能走向融合感知的情境智能，其交互入口将从文本框扩展至全模态的连续流。与此同时，Token经济的爆发正在重塑产业链的成本结构与商业模式，驱动着从基模创新到基础设施的全面竞赛。谁能够定义未来词元的生产、组织与高效使用，谁就将掌握下一代智能的入口与权杖。

从Token到词元：全模态时代的基模与交互入口

全模态统一的基石：Token的演进与模思智能的布局

算力与需求的碰撞：Token经济爆发与产业重构

链接失效反馈