撸猫撸出SOTA!3个00后2个月,造出史上最快流式音视频社交模型
化繁为简:单流序列取代跨模块交织
daVinci-MagiHuman抛弃了复杂的跨模块交织设计,将文本、视频和音频全部放入统一的序列中直接处理。没有独立的交叉注意力机制,也没有外挂的融合模块——代表嘴唇动作的视频Token与代表发音的音频Token在基础的自注意力机制内自然交换信息。最外层采用三明治架构,首尾各4层保留了特定模态的投影与归一化参数,负责将输入的视听信号转化为统一的潜变量语言。系统还借鉴了大语言模型的逐头门控机制,每个注意力头配备独立的S型标量门控,像音量旋钮一样精细调节输出,在不增加架构负担下提升了训练稳定性。
视听交融:多语言口语与微表情严丝合缝
在处理人物表演时,模型展现的情感饱满、口型与语调同步的自然度令人信服。它原生支持中文(含普通话与粤语)、英文、日文、韩文、德文、法文共7种语言。从普通话的四声转折、粤语的复杂声调,到日语的连读停顿、法语的发音习惯,模型均能根据文本精准还原符合母语习惯的自然发音,并匹配最合理的口型变化。带噪的视听Token、文本与图像提示全部映射到同一潜变量空间,由单一模型处理——无论是根据文字凭空生成画面,还是让静态照片开口说话,底层调用的都是同一个纯粹的神经网络。
极致提速:编译器+蒸馏算法压榨硬件性能
解码环节常是拖慢生成的隐形负担。daVinci-MagiHuman在编码阶段采用具有极高时空压缩比的Wan2.2变分自编码器(VAE),推理时替换为经过重新训练的轻量级涡轮解码器(Turbo VAE Decoder)。团队将自研的全图PyTorch编译器接入推理栈,通过跨越网络层融合计算算子、整合分布式通信为更少的高效调用,在1张H100显卡上额外压榨出1.2倍速度提升。借助DMD-2分布匹配蒸馏算法,基础生成器被高度浓缩,剥离无分类器引导后仅需8个去噪步即可输出极具质感的视听画面。
数据说话:开源阵营新霸主
研究团队挑选开源领域最具竞争力的Ovi 1.1与LTX 2.3作为对标,从自动评测指标、人类偏好对比和推理耗时三维度展开全面剖析。音频质量验证采用TalkVid-Bench平台,使用智谱AI语音识别模型转录并计算词错误率(WER)。结果显示,daVinci-MagiHuman在视觉质量与文本对齐两项关键指标上分别拿下4.80与4.18高分;语音清晰度测试中,词错误率低至14.60%,大幅超越Ovi 1.1的40.45%和LTX 2.3的19.23%。在人类偏好对比中,对阵Ovi 1.1取得80.0%胜率(对手仅11.8%),对阵LTX 2.3保持60.9%胜率(对手21.9%),展现出压倒性优势。