撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

3 天前

AI资讯

45 阅读

多模态 SOTA 流式音视频

化繁为简：单流序列取代跨模块交织

daVinci-MagiHuman抛弃了复杂的跨模块交织设计，将文本、视频和音频全部放入统一的序列中直接处理。没有独立的交叉注意力机制，也没有外挂的融合模块——代表嘴唇动作的视频Token与代表发音的音频Token在基础的自注意力机制内自然交换信息。最外层采用三明治架构，首尾各4层保留了特定模态的投影与归一化参数，负责将输入的视听信号转化为统一的潜变量语言。系统还借鉴了大语言模型的逐头门控机制，每个注意力头配备独立的S型标量门控，像音量旋钮一样精细调节输出，在不增加架构负担下提升了训练稳定性。

视听交融：多语言口语与微表情严丝合缝

在处理人物表演时，模型展现的情感饱满、口型与语调同步的自然度令人信服。它原生支持中文（含普通话与粤语）、英文、日文、韩文、德文、法文共7种语言。从普通话的四声转折、粤语的复杂声调，到日语的连读停顿、法语的发音习惯，模型均能根据文本精准还原符合母语习惯的自然发音，并匹配最合理的口型变化。带噪的视听Token、文本与图像提示全部映射到同一潜变量空间，由单一模型处理——无论是根据文字凭空生成画面，还是让静态照片开口说话，底层调用的都是同一个纯粹的神经网络。

极致提速：编译器+蒸馏算法压榨硬件性能

解码环节常是拖慢生成的隐形负担。daVinci-MagiHuman在编码阶段采用具有极高时空压缩比的Wan2.2变分自编码器（VAE），推理时替换为经过重新训练的轻量级涡轮解码器（Turbo VAE Decoder）。团队将自研的全图PyTorch编译器接入推理栈，通过跨越网络层融合计算算子、整合分布式通信为更少的高效调用，在1张H100显卡上额外压榨出1.2倍速度提升。借助DMD-2分布匹配蒸馏算法，基础生成器被高度浓缩，剥离无分类器引导后仅需8个去噪步即可输出极具质感的视听画面。

数据说话：开源阵营新霸主

研究团队挑选开源领域最具竞争力的Ovi 1.1与LTX 2.3作为对标，从自动评测指标、人类偏好对比和推理耗时三维度展开全面剖析。音频质量验证采用TalkVid-Bench平台，使用智谱AI语音识别模型转录并计算词错误率（WER）。结果显示，daVinci-MagiHuman在视觉质量与文本对齐两项关键指标上分别拿下4.80与4.18高分；语音清晰度测试中，词错误率低至14.60%，大幅超越Ovi 1.1的40.45%和LTX 2.3的19.23%。在人类偏好对比中，对阵Ovi 1.1取得80.0%胜率（对手仅11.8%），对阵LTX 2.3保持60.9%胜率（对手21.9%），展现出压倒性优势。

撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

化繁为简：单流序列取代跨模块交织

视听交融：多语言口语与微表情严丝合缝

极致提速：编译器+蒸馏算法压榨硬件性能

数据说话：开源阵营新霸主

链接失效反馈