多模态 - AI 智域导航

首页

登录

当前标签：多模态

KroWork

KroWork

KroWork是快手推出的桌面端AI智能体，深度融合大模型能力，为用户提供高效的工作与创作辅助。

ViduS1 API

ViduS1 API

ViduS1 API 提供实时流式数字人接口，支持开发者快速构建交互式AI数字人应用。

Oreate AI

Oreate AI

Oreate AI 是一个一站式AI创作空间，可快速生成专业幻灯片、论文、视频、图像、播客及深度研究内容。

Pixae AI

Pixae AI

Pixae AI 是一款集图像与视频生成于一体的多功能AI创作平台，让用户无需专业技能即可高效产出创意内容。

Seedance 2.1

Seedance 2.1

Seedance 2.1 是一款支持多模态输入（文本/图像）的AI视频生成工具，可快速将创意转化为动态视频。

Seedance 2.5 AI

Seedance 2.5 AI

Seedance 2.5 AI是一款在线AI视频生成工具，能够基于文字描述和图像输入制作具有电影感的短视频片段。

让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东开源JoyAI-VL-Interaction，让多模态大模型实现实时流式交互，从“一问一答”走向“边看边说”。

撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型

上海创智学院与Sand.ai联合发布开源音视频生成基座daVinci-MagiHuman，以极简单流架构实现音视频同步SOTA，推理速度大幅提升，语音清晰度词错误率低至14.60%。

DeepSeek 识图模式正式上线，不认识“老板”梁文锋

DeepSeek识图模式于2026年5月大范围开放，但这款多模态AI可能根本“认不出”自家老板梁文锋——这位创始人极少公开露面，连公司法定代表人都是裴湉，低调到连硅谷同行都感到困惑。

DeepSeek 识图模式正式上线 App 和网页端

2026年4月29日，DeepSeek正式在其网页端和App灰度上线“识图模式”，首次向普通用户开放多模态图片理解能力，与快速模式、专家模式并列，标志着DeepSeek多模态能力从模型层走向产品层。

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动推出Seedance 2.0视频生成模型，凭借原生音视频同步、多模态输入与导演级叙事控制，将后期制作成本最高降低70%，并同步登陆豆包、即梦等平台，引发全球影视与AI行业震动。

MiniMax M3 模型正式开源：原生多模态、百万上下文

MiniMax M3 模型正式开源：原生多模态、百万上下文

MiniMax M3 模型正式开源，成为国内首个集百万上下文、原生多模态与顶级编程能力于一身的旗舰大模型，API 与权重即将全面开放。

砍掉独立编码器：Gemma 4 12B推翻多模态"拼接设计"

Google Gemma 4 12B 通过彻底砍掉独立的视觉和音频编码器，采用统一的 Encoder-Free 架构，让多模态模型直接在消费级笔记本上运行，延迟与内存占用大幅降低。

商汤SenseNova-Skills来了，全套办公技能：精美PPT直接交付

商汤SenseNova-Skills来了，全套办公技能：精美PPT直接交付

商汤发布SenseNova-Skills开源办公技能，让AI助手从数据到精美PPT直接交付，Token消耗直降60%，并限时免费开放Token Plan。

戴盟机器人完成亿元融资，阿里通义多模态大牛加盟攻关物理世界模型

戴盟机器人完成亿元融资，阿里通义多模态大牛加盟攻关物理世界模型

戴盟机器人连续完成亿元级融资，并获得中国移动、招商局、联想等多家产业资本联合押注，其突破性的毫米级视触觉传感器与含触觉多模态感知操作模型，正在攻克机器人精细操作的核心难关——物理世界模型感知瓶颈。

MiniMax M3终于来了，指标很强，但社区炒翻了

MiniMax M3发布，多项基准测试超越GPT-5.5，但用户吐槽API涨价、Token烧钱，股价冲高回落跌超15%。

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

阿里正式发布千问3.7系列新成员Qwen3.7-Plus，该模型在继承旗舰版顶尖编程与推理能力的基础上，重点强化多模态推理与视觉理解，旨在为下一代混合AI智能体提供全能基座。

首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

MiniMax M3发布，采用稀疏注意力架构实现百万上下文效率暴增，原生多模态统一建模，成为行业首个长上下文、多模态与高性价比兼备的国产旗舰大模型。

OminiGate

OminiGate

OminiGate 是一个多模态AI聚合网关，只需一个API密钥和预充值余额即可访问300+文本、80+图像和80+视频AI模型。

Gemini Omni

Gemini Omni

Gemini Omni 是一款通过自然语言对话即可完成视频生成的 AI 编辑器，轻松将文本、图像和音频汇集成连贯的视频剪辑。

Gemini Omni

Gemini Omni

Gemini Omni 是一款多模态 AI 视频生成器，能直接创作包含原生同步音频的 4K 高清视频片段。

Zanta AI

Zanta AI

Zanta AI 是一款集成图像与视频生成的一站式AI工作台，帮助用户快速创作高质量视觉内容。

官方预告 MiniMax M3 系列 AI 模型即将登场

官方预告 MiniMax M3 系列 AI 模型即将登场

MiniMax官方在2026年3月透露，新一代旗舰模型M3系列将于下半年发布，搭载万亿参数与多模态能力，旨在对标全球顶级AI模型。

Gemini Omni

Gemini Omni

Google Gemini Omni是Google推出的原生多模态大模型，能够无缝处理文本、图像、音频、视频和代码等多种输入，实现跨模态的理解与生成。

Free GPT IM

Free GPT IM

Free GPT IM 是一个免费的一站式AI平台，支持图像、视频和音乐的生成，无需付费即可体验多模态创作。

SeedVideo AI

SeedVideo AI

SeedVideo AI是一款专注于电影级多模态AI视频生成工具，具备精确的参考控制与出色的一致性管理能力。

Veo 4

Veo 4

Multi-modal AI video generator with native audio, character consistency, and precise motion control.

Veo 4

Veo 4是一款AI视频生成工具，能将文本、图像和语音输入转化为电影级视频片段。

Omni Video

Omni Video 是一款专业的AI工具，能够从文本提示和参考图像生成高质量视频。

Omni AI

Omni AI 是一个将文本和图像转化为专业可定制视频的AI平台。

1 2 3 4