字节跳动发布全双工语音大模型Seeduplex！豆包率先接入

3 个月前

AI资讯

120 阅读

字节跳动 AI技术大模型][语音交互

背景：语音交互技术的演进与挑战

语音交互是人工智能发展的重要方向之一，随着大模型技术的成熟，传统基于文本处理的语音系统逐渐暴露出诸多局限性。目前主流的语音对话系统大多采用“级联模式”——即先将语音转为文本（ASR），再由大模型生成文本回应（LLM），最后将文本转为语音（TTS）。这种流程导致语音交互存在高延迟、情绪理解薄弱、无法自然打断等问题，限制了人机对话的拟人性和流畅度。

字节跳动在语音大模型领域持续深耕，2025年初推出豆包实时语音大模型，初步展示了端到端语音建模的潜力。此次推出的Seeduplex则是基于全双工架构的新一代语音模型，旨在解决语音对话中的自然交互与实时性难题。

技术突破：Seeduplex的全双工架构与核心能力

Seeduplex采用“边听边说”的全双工语音交互架构，突破了传统“一问一答”的交互方式，实现更接近真人交流的实时对话体验。其技术亮点主要包括：

精准抗干扰能力
模型具备持续倾听的能力，能有效识别和过滤背景噪音及无关语音，提升在复杂声学环境下的语音识别准确性。相比半双工模型，误回复率和误打断率降低了一半。
动态判停机制
通过联合语音与语义分析，模型能够判断用户是否已结束讲话，从而在恰当的时机做出回应。在用户犹豫或停顿时，模型可保持耐心等待；在用户表达结束时，能迅速响应，减少抢话情况。测试数据显示，抢话比例下降40%。
超低时延与流畅打断
Seeduplex在通话流畅度MOS评分上提升12%，整体通话满意度提升8.34%。其打断响应速度甚至略优于真人平均水平，带来更自然的对话节奏。

应用落地：豆包App率先集成，实现真实场景服务

Seeduplex已率先在字节跳动旗下的豆包App中上线，用户只需将App更新至最新版本（7.2.0及以上），即可在“打电话”语音通话界面体验该模型带来的全新语音交互体验。

字节跳动发布全双工语音大模型Seeduplex！豆包率先接入

豆包团队强调，此次发布的模型不仅是技术Demo，而是具备面向亿级用户稳定运行的能力。依托字节跳动自研的LLM底座，Seeduplex通过架构创新、海量语音预训练、推理优化及稳定性保障，有效应对高并发场景下的卡顿与延迟问题，具备大规模落地的工程能力。

此外，Seeduplex具备丰富的情感表达与语音控制能力，能根据用户情绪变化调整语气，提供安慰、鼓励或幽默等不同情感回应。在实际测试中，用户反馈其语音语气自然度和情绪饱满度显著优于GPT-4o，甚至让人难以察觉是AI在对话。

能力拓展：多模态输入输出与角色扮演潜力

Seeduplex采用统一的语音理解和生成联合建模框架，支持多模态输入与输出，包括：

语音到语音（S2S）
语音到文本（S2T）
文本到语音（T2S）
文本到文本（T2T）

该模型不仅能理解复杂的语音指令，还能根据上下文生成富有情感的语音内容。通过预训练中的大规模多场景语音数据学习，模型具备初步的方言与口音泛化能力，无需针对性训练即可识别并模仿部分中文方言。

此外，模型支持实时联网功能，能根据问题动态获取最新信息，从而提升回答的时效性和准确性。例如，在用户询问天气、新闻或时间敏感问题时，模型可以即时联网查询并返回语音结果。

未来展望与行业影响

Seeduplex的推出标志着字节跳动在语音大模型领域的进一步深化布局，也体现了其对“人机情感连接”的重视。团队希望未来模型能在以下方向持续优化：

多语言与多方言支持：目前模型主要面向中文场景，未来将扩展至更多语言及地方口音，提升全球化适用性。
安全性与伦理控制：语音模型在生成侧和理解侧都面临新的安全挑战，团队将持续优化过滤机制，提升内容安全与情绪稳定性。
交互沉浸感提升：探索更多拟人化表现，如唱歌、角色扮演、情感陪伴等，使AI成为真正具有“灵魂”的语音助手。

在行业层面，Seeduplex的落地将推动语音大模型在ToC端的普及，并为ToB场景（如智能客服、语音助手、教育陪练等）提供更高标准的解决方案。其技术路径也为国产AI产业链提供了新方向，相关算力、芯片、光通信、液冷等供应商有望从中受益。

测评与用户反馈

在豆包团队组织的多维度评测中，Seeduplex展现出显著优于传统方案的表现。测试共邀请数十名来自10个城市的用户，围绕270个话题组展开超过800次中文语音对话。

整体满意度评分（满分5分）达4.36，显著高于GPT-4o的3.18。
50%的测试者为模型打满分。
在“拟人性”判断中，仅2%的用户认为“一听就是AI”，而GPT-4o的该比例超过30%。

这些数据表明，Seeduplex在拟人化、情感表达和语音自然度方面已达到较高水平，为人机语音交互带来实质性体验提升。

结语

Seeduplex的发布，是语音交互技术从“功能型”向“拟人化”演进的重要一步。字节跳动通过全双工架构、端到端建模、情绪理解与生成等技术手段，将语音模型从工具属性向情感陪伴转变。随着模型能力的持续优化和应用场景的拓展，未来人机语音交互将更加自然、沉浸，为AI走向AGI提供关键支撑。

字节跳动发布全双工语音大模型Seeduplex！豆包率先接入

背景：语音交互技术的演进与挑战

技术突破：Seeduplex的全双工架构与核心能力

应用落地：豆包App率先集成，实现真实场景服务

能力拓展：多模态输入输出与角色扮演潜力

未来展望与行业影响

测评与用户反馈

结语

链接失效反馈