网易有道“子曰 4”多模态模型、语音合成模型全量开源

27B参数拿下SOTA:教育场景多模态模型首秀

此次开源的“子曰4”多模态模型拥有27B参数规模,专门面向教育场景设计。在同等参数级别中,该模型凭借视觉输入的数理能力达到了行业顶尖水平(SOTA),尤其擅长处理带图表的复杂题目。无论是几何图形的理解还是函数图像的分析,模型都能精准识别并给出解题思路,标志着AI在教育垂直领域的应用从“看文字”迈入“看图解题”的新阶段。

全模态融合:文本、图片、音频一键打通

“子曰4”正式迈入全模态时代,全面支持文本、图片、音频的融合交互。用户不仅可以用文字提问,还能上传手写作业照片、语音描述问题,模型会自动整合多模态信息生成答案。例如,在辅导物理题时,学生可同时上传电路图照片并口述疑问,模型会结合图像和语音输出详细步骤。这一能力极大降低了使用门槛,让AI辅导更接近真人教师的交互体验。

网易有道“子曰 4”多模态模型、语音合成模型全量开源

双引擎全量开源:TTS模型覆盖多语种与复杂情感

与多模态模型同步开源的还有有道自研的语音合成(TTS)模型。该开源模型在真实多语言场景中展现出稳健的合成效果,可应对日常对话、新闻播报、企业宣传等不同语境,甚至支持复杂情感表达。开发者可以基于该模型快速生成富有情感的语音内容,例如用低沉语气朗读故事、用欢快语调播报新闻。有道称,开源旨在打破技术壁垒,让中小团队也能拥有专业级语音合成能力。

翻译模型深度升级:多模态赋能跨语言学习

此次升级还涉及翻译模型的深度优化。结合多模态能力,有道翻译不仅能处理纯文本,还能识别图片中的文字、图表中的术语,甚至理解音频中的口音和方言。例如,用户拍摄一张英文菜单照片,模型可直接翻译菜品名称并标注食材含义;面对视频中的外语讲解,系统可同步生成字幕并修正专业词汇。这一升级让翻译从“逐字对应”进化到“场景理解”,尤其适用于留学备考和商务交流场景。

开源意义:加速教育AI生态与开发者创新

开源“子曰4”多模态模型和TTS模型,是有道推动教育科技生态的重要举措。开发者可基于开源代码定制专属的智能辅导助手、有声读物生成器,或结合本地数据训练垂直模型。有道的策略是“核心能力开源,应用层创新”,让更多企业免于从零训练大模型的成本。随着开源社区贡献者的加入,模型在教育场景的准确性、多语言支持能力有望进一步提升,为全球教育数字化转型提供底层AI动力。