超越GPT-Realtime-2，阿里语音大模型获三项第一

2 个月前

AI资讯

47 阅读

语音识别 AI评测阿里语音大模型语音推理

全球评测登顶：三项核心指标全面领先

近日，阿里巴巴语音大模型家族登上全球权威AI评测平台Artificial Analysis的榜首位置。此次评测中，阿里模型在“听准”（词错误率）、“听懂”（语音推理能力）和“会聊”（对话流畅度）三个维度的评测结果均超越GPT-Realtime-2等国际顶尖模型，斩获三项第一。这一成绩标志着中国语音AI在长尾场景的鲁棒性、语义理解深度及多轮对话自然度上达到了世界级水平。

“听准”：低词错误率奠定基础

在自动语音识别（ASR）核心指标“词错误率”上，阿里Fun-Realtime-ASR模型表现突出。该指标衡量模型将语音准确转为文字的能力，直接决定后续处理的质量。通过优化的端到端架构与大规模中文多方言数据训练，阿里模型在嘈杂环境、带口音语音等复杂场景中保持了极低的错误率，为实时转录、会议纪要生成等应用提供了可靠底座。

超越GPT-Realtime-2，阿里语音大模型获三项第一

“听懂”与“会聊”：语音推理与对话流畅度的双重突破

“听懂”（语音推理）：阿里Fun-Realtime-AudioChat模型不仅识别文字，更能理解语音中的隐含意图、情感色彩及上下文逻辑。例如在智能导航交互中，用户模糊表述“前面那个路口”后，模型可结合实时行驶状态完成精准推理，这在评测中显著领先于竞品。
“会聊”（对话流畅度）：多轮对话的自然转折、延迟控制与应答相关性是衡量流畅度的关键。阿里模型在千问App语音助手场景下，实现了接近真人的对话节奏，平均响应延迟低于200毫秒，且能无缝处理打断、修正等交互行为。

嵌入核心应用：从千问到高德、钉钉

作为新一代人机交互入口，阿里语音大模型已深度融入三大场景：

千问App：提供实时语音转文字、语音问答及多轮对话辅助，用户可直接通过语音完成信息查询、文档起草等操作。
高德地图：支持智能语音导航交互，用户可用自然语言描述目的地或调节路线偏好，模型实时理解并反馈。
钉钉：承担会议纪要自动生成、实时语音转写及任务督办功能，显著提升办公效率。

这些落地案例印证了模型在真实复杂环境下的稳定表现，也进一步推动了语音AI从技术突破走向规模化应用。

超越GPT-Realtime-2，阿里语音大模型获三项第一

全球评测登顶：三项核心指标全面领先

“听准”：低词错误率奠定基础

“听懂”与“会聊”：语音推理与对话流畅度的双重突破

嵌入核心应用：从千问到高德、钉钉

链接失效反馈