对话两位AI创业者：在技术的快速变迁中，抓住那些“不变”的东西

3 个月前

AI资讯

118 阅读

互动娱乐 [生成式AI 技术整合虚拟世界]

技术已就位，但产品尚未成熟

生成式AI已经能够创造出图像、剧本，甚至视频片段。但行业整体仍处于“盲人摸象”的状态——技术要素看似齐全，却未能组合成一个真正属于AI时代的互动娱乐产品。
戴勃和胡修涵都认为，目前最大的问题不是技术的缺失，而是缺乏统一的视角去整合这些“散落的零件”。他们分别从底层架构与应用层出发，试图构建一个能够让用户参与共创、拥有“活人感”的虚拟世界。
在他们的设想中，未来的互动娱乐将不再受限于预设的剧本或固定的角色设定，而是通过AI与人的协作，实现一种动态、持续、个性化的体验。

戴勃（Feeling AI创始人）：
从2014年开始研究生成式AI，博士期间在港中文MMLab师从林达华教授，谷歌学术引用过万，连续三年入选全球前2%顶尖科学家。
他主导开发的AnimateDiff开源视频生成模型，曾席卷整个Stable Diffusion社区。2024年，他选择拒绝大厂邀约，创办Feeling AI，目标是构建世界模型的基础设施。半年内完成两轮超亿元融资。
胡修涵（捏Ta创始人）：
北大智能科学与经济学双学位，哥大硕士，曾在Meta、阿里、特赞担任技术与产品负责人。
2022年底判断“内容的乐高变了”后离职创业，打造以AI为核心的创作社区捏Ta。注册用户超1200万，日均互动时长超110分钟，2026年3月完成Pre-A+轮融资。

他们早年是计算机竞赛的队友，而AnimateDiff的发布，重新连接了他们的创业路径。

内容的“原子”在进化

修涵从内容创作的工程角度出发，提出内容的基本单元正在经历从像素到概念的转变。

第一代：以像素为核心（如Photoshop）；
第二代：出现模板、图层、3D模型；
第三代：组件化内容（如Figma）；
第四代：以概念为核心的原子结构。

这种变化带来的不仅是技术的跃迁，更是创作方式与协作结构的重构。过去共创行为仅限于文字（如Wikipedia），现在AI的介入使得视觉层面的共创成为可能。

修涵认为：真正的大众化UGC行为，更接近recreation（消遣式创作），强调过程的心流，而非结果的质量。

这种理解方式打破了传统对UGC的认知框架，也让AI原生内容的形态不再受限于预设，而是通过动态生成和用户共建来不断演化。

AI原生应用的两个关键特质：主动与实时

戴勃指出，AI原生的应用必须具备两个关键特质：主动与实时。

实时性：内容的生成不能是离线的、预设的，而应在交互过程中实时发生；
主动性：AI不能只是被动等待用户指令，而应能主动给予反馈与刺激，像一个有自主意识的agent。

对话两位AI创业者：在技术的快速变迁中，抓住那些“不变”的东西

这与传统内容分发机制有本质区别：过去是“生成后消费”，现在是“边生成边交互”。

“最大的机会不是有人造出一个‘绿洲’，而是有人提供造绿洲的积木。”

他们设想的终极形态是类似《头号玩家》中的虚拟空间，但不是由某家公司建造，而是由无数用户共同参与、共建规则与世界观，AI只是提供底层积木。

世界模型的三层架构：想法层、动态层、静态层

戴勃将世界模型拆解为三个层级：

想法层（Logic Layer）：每个动态实体的“意图”或“逻辑”，即“我为什么要进行这些活动”；
动态层（Dynamics Layer）：行为的执行和状态的演化，如角色的运动、物理模拟；
静态层（Visual Layer）：视觉表现，如3D环境、图像、视频。

三者必须同步演进，才能构建一个稳定、持续、可交互的世界。

当前的视频生成模型，如Genie或Seedance，往往把静态和动态混在一起建模。戴勃认为这不合理，应该像游戏引擎一样，分层建模，才能实现更真实、稳定的交互体验。

他强调，真正的世界模型必须具备“物理直觉一致性”，而非严格的物理一致性。这意味着AI生成的内容只要在人类认知中“不违和”，就可以接受。

创作与消费的边界正在消失

修涵指出，在AI时代，UGC不再只是内容的产出，而是一种“体验构建”的行为。

用户不是为了创作一个完美作品而来；
而是在构建的过程中，获得心流体验；
最终的作品，只是“创作过程的预告片”（trailer）。

这也解释了为什么即便AI生成的内容质量参差，用户依然愿意投入时间与情感。因为表达自我、参与构建的过程，本身就是一种消费。

“人的需求无非就是延长寿命、增加体验时间、在单位时间内增加更多体验。”

他们认为，未来的娱乐形态，将围绕多重人生体验的基建展开，用户在虚拟世界中可以不断“选择不同人生路径”，而这正是传统技术无法实现的。

当前技术与产品之间的差距

尽管技术要素已经“不是零”，但离真正的AI原生互动娱乐产品，仍有不小差距。

实时推理能力仍受限；
长期稳定性尚未解决；
模型理解的深度不足；
成本结构仍高企。

修涵指出，视觉内容的生成虽然在进步，但并不完全为互动娱乐服务。而戴勃则认为，当前的模型更多是“像素级”生成，缺乏结构化理解——比如模型不知道某个像素代表“角色的手”，因此无法做出符合物理直觉的变化。

“幻觉问题的本质是模型不知道自己生成的像素是什么意思。”

解决这个问题的关键在于将物理先验嵌入Transformer架构，从而让AI不仅生成内容，还能理解内容背后的结构与意义。

展望未来：两三年内可能迎来转折点

两位创始人都对两三年内的技术进展保持谨慎乐观。

戴勃：将持续构建三层结构的世界模型基模，并关注agentic AI的发展；
修涵：更关注能否在消费属性上，与其他娱乐方式公平竞争的高质量体验的出现。

他们一致认为，一旦出现真正意义上的AI原生互动娱乐产品，系统效率将迅速提升，整个行业将难以逆转地迈向新阶段。

“两年之后会有点久，AI领域的两年非常非常久。”

他们建议创业者保持韧性，不盲目追逐风口，而是从第一性原理出发，结合自身优势，选择一条梯度下降最快的方向。

“抛开EGO，客观看待技术演进。”

在AI浪潮中，真正能留下的，是那些能提供“搭世界积木”的人。

对话两位AI创业者：在技术的快速变迁中，抓住那些“不变”的东西

技术已就位，但产品尚未成熟

内容的“原子”在进化

AI原生应用的两个关键特质：主动与实时

世界模型的三层架构：想法层、动态层、静态层

创作与消费的边界正在消失

当前技术与产品之间的差距

展望未来：两三年内可能迎来转折点

链接失效反馈