网易有道“子曰 4”多模态模型、语音合成模型全量开源

2 个月前

AI资讯

30 阅读

语音合成多模态模型教育AI 全量开源

27B参数拿下SOTA：教育场景多模态模型首秀

此次开源的“子曰4”多模态模型拥有27B参数规模，专门面向教育场景设计。在同等参数级别中，该模型凭借视觉输入的数理能力达到了行业顶尖水平（SOTA），尤其擅长处理带图表的复杂题目。无论是几何图形的理解还是函数图像的分析，模型都能精准识别并给出解题思路，标志着AI在教育垂直领域的应用从“看文字”迈入“看图解题”的新阶段。

全模态融合：文本、图片、音频一键打通

“子曰4”正式迈入全模态时代，全面支持文本、图片、音频的融合交互。用户不仅可以用文字提问，还能上传手写作业照片、语音描述问题，模型会自动整合多模态信息生成答案。例如，在辅导物理题时，学生可同时上传电路图照片并口述疑问，模型会结合图像和语音输出详细步骤。这一能力极大降低了使用门槛，让AI辅导更接近真人教师的交互体验。

网易有道“子曰 4”多模态模型、语音合成模型全量开源

双引擎全量开源：TTS模型覆盖多语种与复杂情感

与多模态模型同步开源的还有有道自研的语音合成（TTS）模型。该开源模型在真实多语言场景中展现出稳健的合成效果，可应对日常对话、新闻播报、企业宣传等不同语境，甚至支持复杂情感表达。开发者可以基于该模型快速生成富有情感的语音内容，例如用低沉语气朗读故事、用欢快语调播报新闻。有道称，开源旨在打破技术壁垒，让中小团队也能拥有专业级语音合成能力。

翻译模型深度升级：多模态赋能跨语言学习

此次升级还涉及翻译模型的深度优化。结合多模态能力，有道翻译不仅能处理纯文本，还能识别图片中的文字、图表中的术语，甚至理解音频中的口音和方言。例如，用户拍摄一张英文菜单照片，模型可直接翻译菜品名称并标注食材含义；面对视频中的外语讲解，系统可同步生成字幕并修正专业词汇。这一升级让翻译从“逐字对应”进化到“场景理解”，尤其适用于留学备考和商务交流场景。

开源意义：加速教育AI生态与开发者创新

开源“子曰4”多模态模型和TTS模型，是有道推动教育科技生态的重要举措。开发者可基于开源代码定制专属的智能辅导助手、有声读物生成器，或结合本地数据训练垂直模型。有道的策略是“核心能力开源，应用层创新”，让更多企业免于从零训练大模型的成本。随着开源社区贡献者的加入，模型在教育场景的准确性、多语言支持能力有望进一步提升，为全球教育数字化转型提供底层AI动力。

网易有道“子曰 4”多模态模型、语音合成模型全量开源

27B参数拿下SOTA：教育场景多模态模型首秀

全模态融合：文本、图片、音频一键打通

双引擎全量开源：TTS模型覆盖多语种与复杂情感

翻译模型深度升级：多模态赋能跨语言学习

开源意义：加速教育AI生态与开发者创新

链接失效反馈