字节发布全双工语音大模型 Seeduplex,豆包打电话能边听边讲、交流更自然
背景与技术演进
近年来,语音交互技术在智能助手、客服系统等多个场景中广泛应用。然而,传统语音模型多为半双工模式,即在听与说之间切换,导致对话存在延迟与机械感,用户体验受限。
字节跳动持续在人工智能与语音技术领域加大投入,依托豆包平台的技术积累,最新发布全双工语音大模型 Seeduplex,标志着语音交互进入一个新阶段。该模型基于“边听边说”的实时交互框架,模拟人类自然对话中的打断与回应机制,极大提升了语音交流的流畅性和拟人性。
Seeduplex 的核心技术特点
- 全双工语音交互:不同于以往模型只能“听-说”交替进行,Seeduplex 可在同一时间接收与输出语音,实现更接近真人对话的体验。
- 端到端深度优化:该模型在语音识别、语义理解与语音生成之间实现了更高效的协同,减少了传统流程中的延迟与信息损耗。
- 低延迟响应机制:通过实时处理语音流,Seeduplex 能在毫秒级别判断是否应答、打断或倾听,从而避免了用户等待的尴尬。
- 高鲁棒性:即使在背景噪音或语音重叠的情况下,模型也能准确识别关键信息,确保交互质量不受影响。

应用升级:豆包电话功能接入 Seeduplex
4月9日,豆包宣布其打电话功能正式接入 Seeduplex,用户在使用豆包进行语音通话时,能够感受到更加自然、实时的交互体验。
这一升级主要体现在:
- 边听边说:用户可在讲话过程中获得AI的即时反馈,无需等待说完后再听回应。
- 自然打断与回应:AI可根据语义判断是否应打断或回应,模拟真实对话中的“听讲交错”行为。
- 更贴近真人交流:测试数据显示,Seeduplex 的响应自然度和流畅度相较上一代模型大幅提升,显著减少对话中的“卡顿感”。
技术影响与未来展望
Seeduplex 的推出不仅是豆包语音能力的一次飞跃,也为整个语音交互行业树立了新的技术标杆。全双工语音模型的普及有望推动以下发展方向:
- 智能客服革新:更自然的对话流程将提高用户满意度,减少因交互延迟导致的流失。
- 语音助手升级:在车载、家居等场景中,AI助手能更灵活地与用户互动,提升实用性。
- 内容创作与教育:在语音交互教学、虚拟主播等场景中,实时反馈能力将带来更强的沉浸感。
未来,字节跳动或将继续拓展 Seeduplex 在更多产品线中的应用,如飞书、抖音语音功能等,进一步构建以语音为核心的人机交互生态。