超越GPT-Realtime-2,阿里语音大模型获三项第一
全球评测登顶:三项核心指标全面领先
近日,阿里巴巴语音大模型家族登上全球权威AI评测平台Artificial Analysis的榜首位置。此次评测中,阿里模型在“听准”(词错误率)、“听懂”(语音推理能力)和“会聊”(对话流畅度)三个维度的评测结果均超越GPT-Realtime-2等国际顶尖模型,斩获三项第一。这一成绩标志着中国语音AI在长尾场景的鲁棒性、语义理解深度及多轮对话自然度上达到了世界级水平。
“听准”:低词错误率奠定基础
在自动语音识别(ASR)核心指标“词错误率”上,阿里Fun-Realtime-ASR模型表现突出。该指标衡量模型将语音准确转为文字的能力,直接决定后续处理的质量。通过优化的端到端架构与大规模中文多方言数据训练,阿里模型在嘈杂环境、带口音语音等复杂场景中保持了极低的错误率,为实时转录、会议纪要生成等应用提供了可靠底座。

“听懂”与“会聊”:语音推理与对话流畅度的双重突破
- “听懂”(语音推理):阿里Fun-Realtime-AudioChat模型不仅识别文字,更能理解语音中的隐含意图、情感色彩及上下文逻辑。例如在智能导航交互中,用户模糊表述“前面那个路口”后,模型可结合实时行驶状态完成精准推理,这在评测中显著领先于竞品。
- “会聊”(对话流畅度):多轮对话的自然转折、延迟控制与应答相关性是衡量流畅度的关键。阿里模型在千问App语音助手场景下,实现了接近真人的对话节奏,平均响应延迟低于200毫秒,且能无缝处理打断、修正等交互行为。
嵌入核心应用:从千问到高德、钉钉
作为新一代人机交互入口,阿里语音大模型已深度融入三大场景:
- 千问App:提供实时语音转文字、语音问答及多轮对话辅助,用户可直接通过语音完成信息查询、文档起草等操作。
- 高德地图:支持智能语音导航交互,用户可用自然语言描述目的地或调节路线偏好,模型实时理解并反馈。
- 钉钉:承担会议纪要自动生成、实时语音转写及任务督办功能,显著提升办公效率。
这些落地案例印证了模型在真实复杂环境下的稳定表现,也进一步推动了语音AI从技术突破走向规模化应用。