蔡浩宇的AI公司悄悄发布了首个视频大模型

3 个月前

AI资讯

41 阅读

[AI大模型蔡浩宇 Anuttacon 视频生成]

背景：从米哈游到 Anuttacon

米哈游联合创始人蔡浩宇在 2021 年退出公司日常运营后，专注于成立新 AI 公司 Anuttacon。该公司以打造下一代 AI 角色为核心目标，探索人工智能在交互式娱乐、数字生命以及虚拟伴侣等领域的应用。LPM 1.0 作为其首个公开发布的视频生成大模型，标志着 Anuttacon 在 AI 视觉技术方向迈出关键一步。

Anuttacon 的研发重点围绕“全双工交互”和“高拟真角色表演”展开，试图解决 AI 角色在语音、表情、动作同步上的长期技术难题，为未来 AI 在游戏、直播、虚拟社交等场景的应用奠定基础。

LPM 1.0 技术亮点：高表现力与实时性

LPM 1.0 是一款基于扩散 Transformer 架构的视频角色表演生成模型，总参数规模高达 170 亿。其核心技术特点包括：

多模态数据集构建：团队开发了一套专用流程，融合音频、文本、动作、表情等信息，形成高质量的训练数据。
图像与音频分离训练：使用 140 亿参数进行图像预训练，再通过 30 亿参数的音频模块引入语音与表情联动。
交错式音频交叉注意力模块：通过该模块实现角色在“说话”与“倾听”状态下的自然过渡，提升交互真实感。

蔡浩宇的AI公司悄悄发布了首个视频大模型

模型不仅生成高精度的面部表情与动作，还能保持长时间身份一致性，在连续对话中维持角色特征不变，这为 AI 角色的长期陪伴与互动提供了技术支持。

应用场景：虚拟角色的“活着对话”

LPM 1.0 主要面向单人全双工音视频对话场景，意味着它能支持实时、自然、双向的对话互动。其主要应用场景包括：

对话代理：可用于打造个性鲜明的 AI 助手，具备视觉形象，能“看见”用户、做出反应。
直播角色：为虚拟主播提供实时驱动能力，无需真人操控即可完成表情、动作、语音一体化表现。
游戏 NPC：在开放世界游戏中赋予 NPC 更真实的表演，增强沉浸感与互动性。

据演示视频显示，AI 角色在对话中能做出逼真的微表情变化，眼神、口型、动作同步精准，情绪演出效果令人印象深刻。

团队与研发支持：顶尖 AI 人才加持

LPM 1.0 项目由 Anuttacon 核心团队主导开发，其中关键技术负责人之一为曾爱玲（Ailing Zeng），她曾任职于腾讯混元 AI Lab，专注于计算机视觉与生成模型研究。她的加入为 LPM 1.0 的视觉表现力和多模态融合能力提供了坚实保障。

此外，Anuttacon 也在同步推进脑机接口等前沿技术方向，结合 LPM 1.0 的视频生成能力，有望在未来构建更加沉浸式的 AI 交互体验。

行业影响与未来展望

LPM 1.0 的发布标志着 AI 视觉生成从静态图像迈向动态表演的新阶段。其在实时推理与长时稳定性上的突破，使 AI 角色不再只是语音助手，而是具备“生命力”的虚拟人物。

未来，这一模型或将被用于：

AI 虚拟伴侣：实现更真实、更具沉浸感的数字伴侣体验。
数字疗法：结合 Anuttacon 正在研发的脑机接口项目，为心理健康群体提供互动式治疗角色。
影视与动画制作：降低角色动画制作成本，提升内容生成效率。

蔡浩宇团队的持续技术输出，正在重新定义 AI 角色的边界，也预示着虚拟人技术即将迎来新一轮爆发。

蔡浩宇的AI公司悄悄发布了首个视频大模型

背景：从米哈游到 Anuttacon

LPM 1.0 技术亮点：高表现力与实时性

应用场景：虚拟角色的“活着对话”

团队与研发支持：顶尖 AI 人才加持

行业影响与未来展望

链接失效反馈