对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是"轮回"
技术与产业背景:从“生成”走向“完成”
近年来,AI生成能力的边界不断拓展,但行业开始意识到,真正拉开差距的不再是单一模型的性能,而是将模型、Agent、技能(skills)与应用场景进行整体协同的能力。
姚霆指出,过去一年,AI行业正在经历从“能不能生成”到“能不能真正完成任务”的转变。这一趋势促使技术公司不再孤立看待图像、文本或视频生成,而是将它们纳入统一系统,实现端到端的创作闭环。
在这个过程中,智象未来凭借深厚的视觉与多模态技术积累,从微软亚洲研究院时期就涉足文生视频、图像理解、商品3D化等多个领域,并在京东期间推动图像搜索、商品识别、物流自动化等商业化落地。
2023年,团队正式成立智象未来,开始构建自研的多模态大模型,并确立“1+3+N”战略:
- 1:底层全模态世界模型底座
- 3:三大智能体出口:视频创作工具、互动营销应用、AI影视创作
- N:未来拓展更多垂直场景应用
世界模型的理解与演化路径
世界模型的定义在不同阶段存在差异,姚霆将其分为早期与近期两个阶段的演进:
-
早期三类模型:
- 高层语言模型(如知识提炼型世界模型)
- 中层表达学习(如JEPA模型)
- 底层像素生成(视频生成模型)
-
近期三类方向:
- 加入因果与物理规律的视频生成模型(如更真实模拟世界的模型)
- 指令驱动实时视频生成模型(如Genie-3)
- 世界动作模型(World Action Model),与具身智能高度相关(如英伟达相关研究)
姚霆认为,智象未来的视频生成模型属于世界模型的底层能力,但其真正的价值在于是否能支持端到端的创作任务。他们正探索一个神经网络同时理解和生成文本、图像、视频、3D和动作,实现真正的全模态统一编码与tokenization。

全模态架构与Agent系统的战略意义
姚霆强调,一个强大的世界模型必须具备:
- 模型维度:全模态底座
- 效果维度:生成质量与准确度
- 产品维度:能否通过Agent系统实现全模态创作
这种全模态能力不仅能服务于影视、游戏等创意产业,还能为具身智能提供高质量的训练数据。
智象未来与诺亦腾机器人达成战略合作,将真实动作捕捉数据与生成数据融合,为VLA模型提供预训练资源,推动机器人学习更自然的动作与行为。
此外,姚霆提出一种新的Agent设计思路:如果每个AI智能体拥有独立的“载体”,而不是依附于用户设备,许多安全问题将被重新定义。这可能使AI从“协作工作者”(co-worker)进阶为“共创者”(co-creator)。
商业化与产品迭代逻辑
在Sora关停、AI视频模型竞争加剧的背景下,姚霆认为独立创业公司仍有机会。关键在于:
- 认知领先:必须对技术与产品趋势有预判,而非模仿大厂。
- 架构创新:智象未来在模型架构上多次领先,如扩散自回归融合架构,大幅压缩推理成本。
- 产品快速上线:生成式AI天然存在幻觉与误差,不必等到完全稳定才发布,而是通过用户反馈持续迭代。
- 灵活组织架构:技术和产品边界模糊,需要快速调整资源与打法。
智象未来的HiDream-I1模型已经开源,推动技术影响力的同时也带来了数千万美元的ARR。在影视与AI漫改领域,其AI短剧平台“帧赞”已协助完成超5000分钟内容,并与央视、安徽电视台等合作,完成如2026年春晚合肥分会场虚实融合视觉呈现等项目。
未来战略:端到端创作智能体平台
2026年智象未来最优先的战略是打造一个端到端的创作智能体平台。该平台将统一底层模型,通过Agent系统承接不同场景,实现“并而治之”的创作逻辑。
姚霆比喻这一系统如同搜索引擎,但搜索对象从网页变成技能(skills),关键在于如何高效索引、调用并编排这些技能,生成符合用户意图的创作内容。
未来,该平台将支持个人创作、营销内容、影视短剧等多个方向,通过统一索引处理所有模态的问题,真正实现用户输入任意模态、输出任意模态的闭环。
行业格局与护城河构建
面对字节、快手等大厂在模型与流量上的优势,姚霆认为初创公司的机会在于:
- 技术认知领先
- 产品迭代速度快
- 组织灵活、适应变化
他强调,AI行业变化极快,任何产品三个月后可能就不再具备价值。在这样一个快速演化的市场中,初创公司只要抓住节奏、做好架构创新与产品策略,就有机会脱颖而出。
智象未来目前融资顺利,投资人看重其商业化验证能力、技术基因和对未来的战略布局。姚霆表示,未来将有更多融资与产品消息陆续披露,公司将继续深耕全模态与创作Agent平台,探索AI内容生成与具身智能的融合边界。