当前标签:多模态

砍掉独立编码器:Gemma 4 12B推翻多模态"拼接设计"

Google Gemma 4 12B 通过彻底砍掉独立的视觉和音频编码器,采用统一的 Encoder-Free 架构,让多模态模型直接在消费级笔记本上运行,延迟与内存占用大幅降低。

商汤SenseNova-Skills来了,全套办公技能:精美PPT直接交付

商汤SenseNova-Skills来了,全套办公技能:精美PPT直接交付

商汤发布SenseNova-Skills开源办公技能,让AI助手从数据到精美PPT直接交付,Token消耗直降60%,并限时免费开放Token Plan。

戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型

戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型

戴盟机器人连续完成亿元级融资,并获得中国移动、招商局、联想等多家产业资本联合押注,其突破性的毫米级视触觉传感器与含触觉多模态感知操作模型,正在攻克机器人精细操作的核心难关——物理世界模型感知瓶颈。

MiniMax M3终于来了,指标很强,但社区炒翻了

MiniMax M3发布,多项基准测试超越GPT-5.5,但用户吐槽API涨价、Token烧钱,股价冲高回落跌超15%。

阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里正式发布千问3.7系列新成员Qwen3.7-Plus,该模型在继承旗舰版顶尖编程与推理能力的基础上,重点强化多模态推理与视觉理解,旨在为下一代混合AI智能体提供全能基座。

首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

MiniMax M3发布,采用稀疏注意力架构实现百万上下文效率暴增,原生多模态统一建模,成为行业首个长上下文、多模态与高性价比兼备的国产旗舰大模型。

OminiGate

OminiGate

OminiGate 是一个多模态AI聚合网关,只需一个API密钥和预充值余额即可访问300+文本、80+图像和80+视频AI模型。

Gemini Omni

Gemini Omni

Gemini Omni 是一款通过自然语言对话即可完成视频生成的 AI 编辑器,轻松将文本、图像和音频汇集成连贯的视频剪辑。

Gemini Omni

Gemini Omni

Gemini Omni 是一款多模态 AI 视频生成器,能直接创作包含原生同步音频的 4K 高清视频片段。

Zanta AI

Zanta AI

Zanta AI 是一款集成图像与视频生成的一站式AI工作台,帮助用户快速创作高质量视觉内容。

官方预告 MiniMax M3 系列 AI 模型即将登场

官方预告 MiniMax M3 系列 AI 模型即将登场

MiniMax官方在2026年3月透露,新一代旗舰模型M3系列将于下半年发布,搭载万亿参数与多模态能力,旨在对标全球顶级AI模型。

Gemini Omni

Gemini Omni

Google Gemini Omni是Google推出的原生多模态大模型,能够无缝处理文本、图像、音频、视频和代码等多种输入,实现跨模态的理解与生成。

Free GPT IM

Free GPT IM

Free GPT IM 是一个免费的一站式AI平台,支持图像、视频和音乐的生成,无需付费即可体验多模态创作。

SeedVideo AI

SeedVideo AI

SeedVideo AI是一款专注于电影级多模态AI视频生成工具,具备精确的参考控制与出色的一致性管理能力。

Veo 4

Veo 4

Multi-modal AI video generator with native audio, character consistency, and precise motion control.

Veo 4

Veo 4是一款AI视频生成工具,能将文本、图像和语音输入转化为电影级视频片段。

Omni Video

Omni Video 是一款专业的AI工具,能够从文本提示和参考图像生成高质量视频。

Omni AI

Omni AI 是一个将文本和图像转化为专业可定制视频的AI平台。

VO4 AI Video Generator

VO4 AI Video Generator是一个一站式AI创意工作室,可生成高质量视频、图像和音乐。

Gemini Omni AI Video

Gemini Omni AI Video

Gemini Omni AI Video是一款将文本和图片快速转换为高质量视频的AI工具,专为内容创作者和营销人员设计。

TinyHumans

TinyHumans

TinyHumans 是一个私密、简洁且强大的个人AI超级智能平台。

Gemini Omni Video Generator

Gemini Omni Video Generator

Gemini Omni Video Generator 是一个统一AI模型,可原生生成4K视频并集成音频,支持对话内编辑。

“拼好模”:字节跳动开源轻量原生统一多模态 AI 模型 Lance

“拼好模”:字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源Lance,一个仅有3B激活参数却能同时处理文本、图片、视频输入并输出图文的多模态模型,被开发者称为“究极拼好模”。

AIFreeForever

AIFreeForever

AIFreeForever是一站式免费AI平台,支持聊天、图像生成、写作辅助和语音合成,无需付费即可体验多种AI能力。

veo4

veo4

veo4 是 Google 旗下最先进的多模态 AI 视频生成平台,支持从文本或图片一键生成 4K 高清、带原生同步音频的电影级视频,并保持角色与场景的高度一致性。

Veo 4

Veo 4

Veo 4是一款支持多模态输入的AI视频生成工具,可为用户打造电影级画质内容并提供精准的导演级控制。

Veo Omni

Veo Omni是一个独立的AI视频提示工作区,专为规划镜头和组织多模态提示而设计。

SeedanceGen AI

SeedanceGen AI

SeedanceGen AI 是一款专为电影级多镜头叙事设计的多模态AI视频生成工具。

Omni Flash

Omni Flash

Omni Flash是一款多模态AI视频生成工具,支持从文本、图片和音频直接创建高质量视频。

Gemini Omni

Gemini Omni

Gemini Omni是一个从单一提示词生成视频、图像和同步音频的统一AI工作空间。

1 2 3