对话两位AI创业者:在技术的快速变迁中,抓住那些“不变”的东西
技术已就位,但产品尚未成熟
生成式AI已经能够创造出图像、剧本,甚至视频片段。但行业整体仍处于“盲人摸象”的状态——技术要素看似齐全,却未能组合成一个真正属于AI时代的互动娱乐产品。
戴勃和胡修涵都认为,目前最大的问题不是技术的缺失,而是缺乏统一的视角去整合这些“散落的零件”。他们分别从底层架构与应用层出发,试图构建一个能够让用户参与共创、拥有“活人感”的虚拟世界。
在他们的设想中,未来的互动娱乐将不再受限于预设的剧本或固定的角色设定,而是通过AI与人的协作,实现一种动态、持续、个性化的体验。
-
戴勃(Feeling AI创始人):
从2014年开始研究生成式AI,博士期间在港中文MMLab师从林达华教授,谷歌学术引用过万,连续三年入选全球前2%顶尖科学家。
他主导开发的AnimateDiff开源视频生成模型,曾席卷整个Stable Diffusion社区。2024年,他选择拒绝大厂邀约,创办Feeling AI,目标是构建世界模型的基础设施。半年内完成两轮超亿元融资。 -
胡修涵(捏Ta创始人):
北大智能科学与经济学双学位,哥大硕士,曾在Meta、阿里、特赞担任技术与产品负责人。
2022年底判断“内容的乐高变了”后离职创业,打造以AI为核心的创作社区捏Ta。注册用户超1200万,日均互动时长超110分钟,2026年3月完成Pre-A+轮融资。
他们早年是计算机竞赛的队友,而AnimateDiff的发布,重新连接了他们的创业路径。
内容的“原子”在进化
修涵从内容创作的工程角度出发,提出内容的基本单元正在经历从像素到概念的转变。
- 第一代:以像素为核心(如Photoshop);
- 第二代:出现模板、图层、3D模型;
- 第三代:组件化内容(如Figma);
- 第四代:以概念为核心的原子结构。
这种变化带来的不仅是技术的跃迁,更是创作方式与协作结构的重构。过去共创行为仅限于文字(如Wikipedia),现在AI的介入使得视觉层面的共创成为可能。
修涵认为:真正的大众化UGC行为,更接近recreation(消遣式创作),强调过程的心流,而非结果的质量。
这种理解方式打破了传统对UGC的认知框架,也让AI原生内容的形态不再受限于预设,而是通过动态生成和用户共建来不断演化。
AI原生应用的两个关键特质:主动与实时
戴勃指出,AI原生的应用必须具备两个关键特质:主动与实时。
- 实时性:内容的生成不能是离线的、预设的,而应在交互过程中实时发生;
- 主动性:AI不能只是被动等待用户指令,而应能主动给予反馈与刺激,像一个有自主意识的agent。

这与传统内容分发机制有本质区别:过去是“生成后消费”,现在是“边生成边交互”。
“最大的机会不是有人造出一个‘绿洲’,而是有人提供造绿洲的积木。”
他们设想的终极形态是类似《头号玩家》中的虚拟空间,但不是由某家公司建造,而是由无数用户共同参与、共建规则与世界观,AI只是提供底层积木。
世界模型的三层架构:想法层、动态层、静态层
戴勃将世界模型拆解为三个层级:
- 想法层(Logic Layer):每个动态实体的“意图”或“逻辑”,即“我为什么要进行这些活动”;
- 动态层(Dynamics Layer):行为的执行和状态的演化,如角色的运动、物理模拟;
- 静态层(Visual Layer):视觉表现,如3D环境、图像、视频。
三者必须同步演进,才能构建一个稳定、持续、可交互的世界。
当前的视频生成模型,如Genie或Seedance,往往把静态和动态混在一起建模。戴勃认为这不合理,应该像游戏引擎一样,分层建模,才能实现更真实、稳定的交互体验。
他强调,真正的世界模型必须具备“物理直觉一致性”,而非严格的物理一致性。这意味着AI生成的内容只要在人类认知中“不违和”,就可以接受。
创作与消费的边界正在消失
修涵指出,在AI时代,UGC不再只是内容的产出,而是一种“体验构建”的行为。
- 用户不是为了创作一个完美作品而来;
- 而是在构建的过程中,获得心流体验;
- 最终的作品,只是“创作过程的预告片”(trailer)。
这也解释了为什么即便AI生成的内容质量参差,用户依然愿意投入时间与情感。因为表达自我、参与构建的过程,本身就是一种消费。
“人的需求无非就是延长寿命、增加体验时间、在单位时间内增加更多体验。”
他们认为,未来的娱乐形态,将围绕多重人生体验的基建展开,用户在虚拟世界中可以不断“选择不同人生路径”,而这正是传统技术无法实现的。
当前技术与产品之间的差距
尽管技术要素已经“不是零”,但离真正的AI原生互动娱乐产品,仍有不小差距。
- 实时推理能力仍受限;
- 长期稳定性尚未解决;
- 模型理解的深度不足;
- 成本结构仍高企。
修涵指出,视觉内容的生成虽然在进步,但并不完全为互动娱乐服务。而戴勃则认为,当前的模型更多是“像素级”生成,缺乏结构化理解——比如模型不知道某个像素代表“角色的手”,因此无法做出符合物理直觉的变化。
“幻觉问题的本质是模型不知道自己生成的像素是什么意思。”
解决这个问题的关键在于将物理先验嵌入Transformer架构,从而让AI不仅生成内容,还能理解内容背后的结构与意义。
展望未来:两三年内可能迎来转折点
两位创始人都对两三年内的技术进展保持谨慎乐观。
- 戴勃:将持续构建三层结构的世界模型基模,并关注agentic AI的发展;
- 修涵:更关注能否在消费属性上,与其他娱乐方式公平竞争的高质量体验的出现。
他们一致认为,一旦出现真正意义上的AI原生互动娱乐产品,系统效率将迅速提升,整个行业将难以逆转地迈向新阶段。
“两年之后会有点久,AI领域的两年非常非常久。”
他们建议创业者保持韧性,不盲目追逐风口,而是从第一性原理出发,结合自身优势,选择一条梯度下降最快的方向。
“抛开EGO,客观看待技术演进。”
在AI浪潮中,真正能留下的,是那些能提供“搭世界积木”的人。