多模态大模型 - AI 智域导航

生数科技Vidu Q3多模态大模型上线华为云，凭借“参考生视频”技术实现文/图生视频一体化成片，支持6大特效、5大音效同步生成，推动AI视频进入工业化生产阶段。

灵绘AI提供从故事构思到视频成片的全流程AI创作服务。

字节跳动开源统一框架Bernini，将多模态大模型作为“军师”前置理解视频内容，再引导DiT实现精准编辑，开创AI视频编辑新范式。

深氧AI是一款提供一站式3D视频生成服务的AIGC工具，融合AI与云技术，降低专业级3D内容创作门槛。

智小象是一个基于自研多模态大模型的中文AIGC创作平台，提供文生图、文生视频与智能拓图服务，实现高效、低成本的创意内容生成。

紫东太初是一个由中科院自动化所与武汉人工智能研究院联合打造的多模态人工智能大模型平台，具备跨文本、图像、3D等多模态能力。

通义千问Qwen3.5-Omni以215项SOTA刷新全模态认知，实现摄像头即AI助理的智能交互体验。

FunClip是一款集成多种AI模型的音视频处理工具，旨在提供一站式智能剪辑解决方案。

dmxapi 是一个领先的多模态大模型API聚合平台，提供高效、稳定的AI服务接口。

书生通用大模型是由上海人工智能实验室开发的，具备开放世界理解、跨模态生成与多模态交互能力的先进人工智能系统。

Qwen2-VL是阿里开源的先进视觉语言大模型，融合视觉与语言理解能力。

一个融合对话AI与情感连接的多模态智能体互动平台。

阶跃星辰是一个通过领先的多模态理解和内容生成技术，为用户提供高效、智能工具的平台。

Gemini 是为实现多模态而构建的 AI，具备跨文本、图像、音频、视频和代码无缝推理的能力。

当前标签：多模态大模型