砍掉独立编码器：Gemma 4 12B推翻多模态"拼接设计"

1 个月前

AI资讯

43 阅读

多模态低延迟 Gemma 4 无编码器 12B

扔掉笨重编码器：图像与音频直通语言模型

传统多模态大模型普遍采用“拼接式”设计：图像先经过专门的视觉编码器，音频先经过音频编码器，把非文本数据“翻译”成特征，再喂给语言模型。这不仅增加了参数量，还引入额外的前置延迟。Gemma 4 12B 彻底推翻了这一做法——它用一个极轻量的嵌入模块替代了原有的视觉编码器，该模块仅包含一次矩阵乘法、位置嵌入和归一化操作。音频输入也同样被直接送入语言模型主干的统一处理流程。这种“无编码器”架构意味着：

延迟更低：省去了编码器单独计算和特征对齐的时间。
内存更省：整体参数量减少，尤其适合边缘和本地部署。
统一理解：语言模型自主学习不同模态的语义表示，避免了拼接设计中“信息传递损耗”。

16GB 笔记本也能跑多模态，跑分逼近 26B MoE 模型

性能方面，Gemma 4 12B 在标准评测基准上的成绩接近同为 Gemma 4 系列的 26B 混合专家模型（MoE），但总内存占用不到后者一半。硬件门槛极低：

显存需求：仅需 16 GB 显存或统一内存。
运行设备：入门级 MacBook Air（M5）即可流畅运行。
能力扩展：支持强大的多步推理和智能体工作流，可以完全离线使用，不依赖云端。

配套的推理框架覆盖全面，包括 LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI 等。社区实测：16 GB 内存虽可运行但 token 速度较慢，推荐 32 GB 以上设备。

Apache 2.0 全开放，Agent 技能库同步上线

Google 以 Apache 2.0 协议发布 Gemma 4 12B，开发者可自由使用、修改和部署。

推理与微调：支持 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM，微调方面支持 Unsloth。
生产部署：可通过 Google Cloud（模型花园、Cloud Run、GKE）上线，融入 Gemini 企业级智能体平台。
配套生态：官方同步推出 Gemma 技能库（Skills Repository），专门为用 Gemma 构建 Agent 工作流提供现成技能模块。

中文用户注意：默认输出粤语，需主动指定简体中文

首批体验者反馈：Gemma 4 12B 的中文表达默认倾向粤语风格。若需简体中文回答，必须在提问前明确要求。模型知识截止日期为 2025 年 1 月。整体而言，这是一款真正让多模态能力“本地化”的开源模型，断网状态下也能获得图像理解、音频转写、Agent 交互等能力，彻底消除了 token 焦虑。

砍掉独立编码器：Gemma 4 12B推翻多模态&quot;拼接设计&quot;

扔掉笨重编码器：图像与音频直通语言模型

16GB 笔记本也能跑多模态，跑分逼近 26B MoE 模型

Apache 2.0 全开放，Agent 技能库同步上线

中文用户注意：默认输出粤语，需主动指定简体中文

链接失效反馈

砍掉独立编码器：Gemma 4 12B推翻多模态"拼接设计"