砍掉独立编码器:Gemma 4 12B推翻多模态"拼接设计"
扔掉笨重编码器:图像与音频直通语言模型
传统多模态大模型普遍采用“拼接式”设计:图像先经过专门的视觉编码器,音频先经过音频编码器,把非文本数据“翻译”成特征,再喂给语言模型。这不仅增加了参数量,还引入额外的前置延迟。Gemma 4 12B 彻底推翻了这一做法——它用一个极轻量的嵌入模块替代了原有的视觉编码器,该模块仅包含一次矩阵乘法、位置嵌入和归一化操作。音频输入也同样被直接送入语言模型主干的统一处理流程。这种“无编码器”架构意味着:
- 延迟更低:省去了编码器单独计算和特征对齐的时间。
- 内存更省:整体参数量减少,尤其适合边缘和本地部署。
- 统一理解:语言模型自主学习不同模态的语义表示,避免了拼接设计中“信息传递损耗”。
16GB 笔记本也能跑多模态,跑分逼近 26B MoE 模型
性能方面,Gemma 4 12B 在标准评测基准上的成绩接近同为 Gemma 4 系列的 26B 混合专家模型(MoE),但总内存占用不到后者一半。硬件门槛极低:
- 显存需求:仅需 16 GB 显存或统一内存。
- 运行设备:入门级 MacBook Air(M5)即可流畅运行。
- 能力扩展:支持强大的多步推理和智能体工作流,可以完全离线使用,不依赖云端。
配套的推理框架覆盖全面,包括 LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI 等。社区实测:16 GB 内存虽可运行但 token 速度较慢,推荐 32 GB 以上设备。
Apache 2.0 全开放,Agent 技能库同步上线
Google 以 Apache 2.0 协议发布 Gemma 4 12B,开发者可自由使用、修改和部署。
- 推理与微调:支持 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM,微调方面支持 Unsloth。
- 生产部署:可通过 Google Cloud(模型花园、Cloud Run、GKE)上线,融入 Gemini 企业级智能体平台。
- 配套生态:官方同步推出 Gemma 技能库(Skills Repository),专门为用 Gemma 构建 Agent 工作流提供现成技能模块。
中文用户注意:默认输出粤语,需主动指定简体中文
首批体验者反馈:Gemma 4 12B 的中文表达默认倾向粤语风格。若需简体中文回答,必须在提问前明确要求。模型知识截止日期为 2025 年 1 月。整体而言,这是一款真正让多模态能力“本地化”的开源模型,断网状态下也能获得图像理解、音频转写、Agent 交互等能力,彻底消除了 token 焦虑。