智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型

多模态Token为何更“值钱”?梅涛给出毛利密码

在梅涛看来,多模态Token的高毛利率首先源于其理解与生成的复杂性。纯语言模型处理的是抽象符号,而多模态模型需要同时建模视觉、空间、动作等多维度信息,这种对物理世界的映射能力天然具有稀缺性。他提到:

  • 技术门槛更高:原生多模态模型需处理像素级数据、时序运动和语义对齐,训练成本虽高,但模型输出对下游应用(如营销视频、影视特效)的价值增量也更大,用户付费意愿显著提升。
  • 场景不可替代:例如在AI营销中,一段生成式视频Token产生的商业转化效果远超纯文本Token,客户愿意为“所见即所得”的视觉内容支付更高溢价,从而推高毛利率。

技术路径之争:原生全模态才是“印钞机”

智象未来选择原生全模态路线,而非当前流行的“单模型拼接式多模态”。梅涛强调,很多所谓的多模态大模型本质仍是“单模态的堆砌”,这种架构下Token生成逻辑割裂,导致毛利率被中间层损耗摊薄。而原生全模态模型从底层统一表征视觉、语言、动作:

智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型

  • 消除冗余:单一模型内完成端到端Token生成,无跨模型串接成本,毛利率自然更高。
  • 长尾变现:原生多模态能输出如物理动态、光照变化等“隐性Token”,这些在广告、影视后期中单价极高,进一步拉大与语言模型毛利率的差距。

从模型能力到产品落地:谁先拿到高毛利订单?

梅涛判断,AI公司的竞争已从模型能力转向场景化产品。多模态Token的高毛利能否落地,取决于能否切入高价值产业链:

  • AI营销:生成式广告视频的Token单价是文本导航的5-8倍,且客户复购率强,智象未来通过“模型+场景”闭环锁定这部分利润。
  • AI影视与专业创作:影视制作中特效Token的单帧成本可达普通文本Token的数十倍,且对物理真实度要求极高,多模态模型的原生能力正好满足,形成议价壁垒。
  • 对比语言模型:通用聊天场景的Token毛利率已因价格战下降,而多模态因技术收敛未完成、供给有限,仍维持高毛利水位。

“世界模型不是唯一的”:多模态毛利率背后的产业分层

梅涛提出“世界模型不是只有一个模型”,多模态模型内部的毛利率也分三六九等。他强调,并非所有多模态Token都高毛利,关键看是否具备“物理世界理解力”:

模型层次 典型Token 毛利率水平 案例
低层视觉感知 静态图像描述 中等 简单OCR、标签生成
中层动作建模 视频运动轨迹 较高 机器人仿真场景
高层因果推理 物理交互后果 最高 自动驾驶碰撞预测、影视爆破特效

智象未来专注中层到高层的视觉多模态,因为这类Token与商业决策、工业应用强绑定,客户为“预测物理世界”付费,而非单纯生成内容。梅涛以此解释:为什么纯语言模型面临毛利率下滑,而多模态仍能保持两位数增长——物理信号的Token,本身就是稀缺资源。