智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

1 个月前

AI资讯

64 阅读

Token 多模态模型毛利率

在梅涛看来，多模态Token的高毛利率首先源于其理解与生成的复杂性。纯语言模型处理的是抽象符号，而多模态模型需要同时建模视觉、空间、动作等多维度信息，这种对物理世界的映射能力天然具有稀缺性。他提到：

技术门槛更高：原生多模态模型需处理像素级数据、时序运动和语义对齐，训练成本虽高，但模型输出对下游应用（如营销视频、影视特效）的价值增量也更大，用户付费意愿显著提升。
场景不可替代：例如在AI营销中，一段生成式视频Token产生的商业转化效果远超纯文本Token，客户愿意为“所见即所得”的视觉内容支付更高溢价，从而推高毛利率。

智象未来选择原生全模态路线，而非当前流行的“单模型拼接式多模态”。梅涛强调，很多所谓的多模态大模型本质仍是“单模态的堆砌”，这种架构下Token生成逻辑割裂，导致毛利率被中间层损耗摊薄。而原生全模态模型从底层统一表征视觉、语言、动作：

智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

梅涛判断，AI公司的竞争已从模型能力转向场景化产品。多模态Token的高毛利能否落地，取决于能否切入高价值产业链：

AI营销：生成式广告视频的Token单价是文本导航的5-8倍，且客户复购率强，智象未来通过“模型+场景”闭环锁定这部分利润。
AI影视与专业创作：影视制作中特效Token的单帧成本可达普通文本Token的数十倍，且对物理真实度要求极高，多模态模型的原生能力正好满足，形成议价壁垒。
对比语言模型：通用聊天场景的Token毛利率已因价格战下降，而多模态因技术收敛未完成、供给有限，仍维持高毛利水位。

梅涛提出“世界模型不是只有一个模型”，多模态模型内部的毛利率也分三六九等。他强调，并非所有多模态Token都高毛利，关键看是否具备“物理世界理解力”：

模型层次	典型Token	毛利率水平	案例
低层视觉感知	静态图像描述	中等	简单OCR、标签生成
中层动作建模	视频运动轨迹	较高	机器人仿真场景
高层因果推理	物理交互后果	最高	自动驾驶碰撞预测、影视爆破特效

智象未来专注中层到高层的视觉多模态，因为这类Token与商业决策、工业应用强绑定，客户为“预测物理世界”付费，而非单纯生成内容。梅涛以此解释：为什么纯语言模型面临毛利率下滑，而多模态仍能保持两位数增长——物理信号的Token，本身就是稀缺资源。