对话智象未来CTO姚霆：当Sora退场后，世界模型的终局是"轮回"

3 个月前

AI资讯

118 阅读

技术与产业背景：从“生成”走向“完成”

近年来，AI生成能力的边界不断拓展，但行业开始意识到，真正拉开差距的不再是单一模型的性能，而是将模型、Agent、技能（skills）与应用场景进行整体协同的能力。
姚霆指出，过去一年，AI行业正在经历从“能不能生成”到“能不能真正完成任务”的转变。这一趋势促使技术公司不再孤立看待图像、文本或视频生成，而是将它们纳入统一系统，实现端到端的创作闭环。
在这个过程中，智象未来凭借深厚的视觉与多模态技术积累，从微软亚洲研究院时期就涉足文生视频、图像理解、商品3D化等多个领域，并在京东期间推动图像搜索、商品识别、物流自动化等商业化落地。
2023年，团队正式成立智象未来，开始构建自研的多模态大模型，并确立“1+3+N”战略：

1：底层全模态世界模型底座
3：三大智能体出口：视频创作工具、互动营销应用、AI影视创作
N：未来拓展更多垂直场景应用

世界模型的理解与演化路径

世界模型的定义在不同阶段存在差异，姚霆将其分为早期与近期两个阶段的演进：

早期三类模型：
- 高层语言模型（如知识提炼型世界模型）
- 中层表达学习（如JEPA模型）
- 底层像素生成（视频生成模型）
近期三类方向：
- 加入因果与物理规律的视频生成模型（如更真实模拟世界的模型）
- 指令驱动实时视频生成模型（如Genie-3）
- 世界动作模型（World Action 开心版el），与具身智能高度相关（如英伟达相关研究）

姚霆认为，智象未来的视频生成模型属于世界模型的底层能力，但其真正的价值在于是否能支持端到端的创作任务。他们正探索一个神经网络同时理解和生成文本、图像、视频、3D和动作，实现真正的全模态统一编码与tokenization。

对话智象未来CTO姚霆：当Sora退场后，世界模型的终局是"轮回"

全模态架构与Agent系统的战略意义

姚霆强调，一个强大的世界模型必须具备：

模型维度：全模态底座
效果维度：生成质量与准确度
产品维度：能否通过Agent系统实现全模态创作

这种全模态能力不仅能服务于影视、游戏等创意产业，还能为具身智能提供高质量的训练数据。
智象未来与诺亦腾机器人达成战略合作，将真实动作捕捉数据与生成数据融合，为VLA模型提供预训练资源，推动机器人学习更自然的动作与行为。

此外，姚霆提出一种新的Agent设计思路：如果每个AI智能体拥有独立的“载体”，而不是依附于用户设备，许多安全问题将被重新定义。这可能使AI从“协作工作者”（co-worker）进阶为“共创者”（co-creator）。

商业化与产品迭代逻辑

在Sora关停、AI视频模型竞争加剧的背景下，姚霆认为独立创业公司仍有机会。关键在于：

认知领先：必须对技术与产品趋势有预判，而非模仿大厂。
架构创新：智象未来在模型架构上多次领先，如扩散自回归融合架构，大幅压缩推理成本。
产品快速上线：生成式AI天然存在幻觉与误差，不必等到完全稳定才发布，而是通过用户反馈持续迭代。
灵活组织架构：技术和产品边界模糊，需要快速调整资源与打法。

智象未来的HiDream-I1模型已经开源，推动技术影响力的同时也带来了数千万美元的ARR。在影视与AI漫改领域，其AI短剧平台“帧赞”已协助完成超5000分钟内容，并与央视、安徽电视台等合作，完成如2026年春晚合肥分会场虚实融合视觉呈现等项目。

未来战略：端到端创作智能体平台

2026年智象未来最优先的战略是打造一个端到端的创作智能体平台。该平台将统一底层模型，通过Agent系统承接不同场景，实现“并而治之”的创作逻辑。
姚霆比喻这一系统如同搜索引擎，但搜索对象从网页变成技能（skills），关键在于如何高效索引、调用并编排这些技能，生成符合用户意图的创作内容。

未来，该平台将支持个人创作、营销内容、影视短剧等多个方向，通过统一索引处理所有模态的问题，真正实现用户输入任意模态、输出任意模态的闭环。

行业格局与护城河构建

面对字节、快手等大厂在模型与流量上的优势，姚霆认为初创公司的机会在于：

技术认知领先
产品迭代速度快
组织灵活、适应变化

他强调，AI行业变化极快，任何产品三个月后可能就不再具备价值。在这样一个快速演化的市场中，初创公司只要抓住节奏、做好架构创新与产品策略，就有机会脱颖而出。

智象未来目前融资顺利，投资人看重其商业化验证能力、技术基因和对未来的战略布局。姚霆表示，未来将有更多融资与产品消息陆续披露，公司将继续深耕全模态与创作Agent平台，探索AI内容生成与具身智能的融合边界。

对话智象未来CTO姚霆：当Sora退场后，世界模型的终局是&quot;轮回&quot;

技术与产业背景：从“生成”走向“完成”

世界模型的理解与演化路径

全模态架构与Agent系统的战略意义

商业化与产品迭代逻辑

未来战略：端到端创作智能体平台

行业格局与护城河构建

链接失效反馈

对话智象未来CTO姚霆：当Sora退场后，世界模型的终局是"轮回"