蔡浩宇的AI公司悄悄发布了首个视频大模型
背景:从米哈游到 Anuttacon
米哈游联合创始人蔡浩宇在 2021 年退出公司日常运营后,专注于成立新 AI 公司 Anuttacon。该公司以打造下一代 AI 角色为核心目标,探索人工智能在交互式娱乐、数字生命以及虚拟伴侣等领域的应用。LPM 1.0 作为其首个公开发布的视频生成大模型,标志着 Anuttacon 在 AI 视觉技术方向迈出关键一步。
Anuttacon 的研发重点围绕“全双工交互”和“高拟真角色表演”展开,试图解决 AI 角色在语音、表情、动作同步上的长期技术难题,为未来 AI 在游戏、直播、虚拟社交等场景的应用奠定基础。
LPM 1.0 技术亮点:高表现力与实时性
LPM 1.0 是一款基于扩散 Transformer 架构的视频角色表演生成模型,总参数规模高达 170 亿。其核心技术特点包括:
- 多模态数据集构建:团队开发了一套专用流程,融合音频、文本、动作、表情等信息,形成高质量的训练数据。
- 图像与音频分离训练:使用 140 亿参数进行图像预训练,再通过 30 亿参数的音频模块引入语音与表情联动。
- 交错式音频交叉注意力模块:通过该模块实现角色在“说话”与“倾听”状态下的自然过渡,提升交互真实感。

模型不仅生成高精度的面部表情与动作,还能保持长时间身份一致性,在连续对话中维持角色特征不变,这为 AI 角色的长期陪伴与互动提供了技术支持。
应用场景:虚拟角色的“活着对话”
LPM 1.0 主要面向单人全双工音视频对话场景,意味着它能支持实时、自然、双向的对话互动。其主要应用场景包括:
- 对话代理:可用于打造个性鲜明的 AI 助手,具备视觉形象,能“看见”用户、做出反应。
- 直播角色:为虚拟主播提供实时驱动能力,无需真人操控即可完成表情、动作、语音一体化表现。
- 游戏 NPC:在开放世界游戏中赋予 NPC 更真实的表演,增强沉浸感与互动性。
据演示视频显示,AI 角色在对话中能做出逼真的微表情变化,眼神、口型、动作同步精准,情绪演出效果令人印象深刻。
团队与研发支持:顶尖 AI 人才加持
LPM 1.0 项目由 Anuttacon 核心团队主导开发,其中关键技术负责人之一为曾爱玲(Ailing Zeng),她曾任职于腾讯混元 AI Lab,专注于计算机视觉与生成模型研究。她的加入为 LPM 1.0 的视觉表现力和多模态融合能力提供了坚实保障。
此外,Anuttacon 也在同步推进脑机接口等前沿技术方向,结合 LPM 1.0 的视频生成能力,有望在未来构建更加沉浸式的 AI 交互体验。
行业影响与未来展望
LPM 1.0 的发布标志着 AI 视觉生成从静态图像迈向动态表演的新阶段。其在实时推理与长时稳定性上的突破,使 AI 角色不再只是语音助手,而是具备“生命力”的虚拟人物。
未来,这一模型或将被用于:
- AI 虚拟伴侣:实现更真实、更具沉浸感的数字伴侣体验。
- 数字疗法:结合 Anuttacon 正在研发的脑机接口项目,为心理健康群体提供互动式治疗角色。
- 影视与动画制作:降低角色动画制作成本,提升内容生成效率。
蔡浩宇团队的持续技术输出,正在重新定义 AI 角色的边界,也预示着虚拟人技术即将迎来新一轮爆发。