首页

登录

iPhone本地跑Gemma 4火了，0 token时代还有多远？

1 个月前

AI资讯

19 阅读

[AI模型 Gemma 4 iPhone 端侧计算]

背景与技术亮点

Gemma 4是谷歌推出的小型高性能AI模型，其技术架构源自Gemini 3。
支持多模态处理（文本、图像、音频等），并在Arena AI排行榜上位列全球第三。
模型分为多个版本，其中E2B（2.3B参数）和E4B（4.5B参数）适合在手机端部署。
上下文窗口达到128K，具备处理长文本的能力。

得益于苹果自研芯片和MLX机器学习框架的优化，iPhone 17 Pro运行Gemma 4的推理速度可超过40 token/秒。这一表现不仅令人惊讶，也意味着在端侧运行AI模型已成为现实可能。

端侧运行的普及方式

普通用户无需具备技术背景，可通过谷歌官方App Google AI Edge Gallery 下载并运行Gemma 4。
操作流程简洁：
1. 下载App。
2. 选择模型版本（如E2B或E4B）。
3. 直接在手机上运行，无需连接云端。

一位X平台用户上传的视频引发热议，展示了Gemma 4在iPhone上处理图像、音频甚至控制手电筒开关的能力。这种“本地运行 + 多模态交互”的体验，被用户形容为“快得像魔法”。

性能表现与局限

在iPhone 17 Pro等高端设备上，Gemma 4的推理速度令人印象深刻。
三星Galaxy用户也实现了类似性能，甚至在开启复杂推理模式下依然流畅。
然而，当用户将其用于代码代理（coding agent）任务时，出现了卡顿、报错和结构化输出失败的问题。

原因分析：

Gemma 4 26B版本虽然拥有256K的上下文窗口，但在工具调用与结构化输出方面缺乏优化。
有开发者尝试将其替换为qwen3-coder后，代码生成与执行任务变得稳定。说明当前Gemma 4在部分场景下仍存在技术短板。

此外，部分用户指出Gemma 4在“智力水平”方面略显不足，处理复杂逻辑或专业领域问题时表现一般。

行业影响与未来趋势

Gemma 4的火爆不仅体现了端侧AI的潜力，也引发了对“0 token时代”的讨论：

当前大量高频、简单的任务（如聊天、图像识别、基础推理）仍依赖云端API，厂商通过token收费盈利。
一旦这些任务可在本地完成，将大幅减少云端API使用需求，对依赖token销售的AI厂商造成冲击。

短期与长期趋势对比：

时间维度	云端模型	端侧模型
短期	仍主导复杂推理与大规模协作	适合处理日常任务，但性能与闭源模型有差距
长期	需聚焦“硬核”能力（如超强Agent、实时数据处理）	硬件与算法进步后，逐步替代高频简单任务

随着硬件性能提升、模型量化技术优化，未来端侧模型将越来越能胜任当前云端的中低复杂度任务。

商业模式变革的信号

云端AI服务提供商将不得不转向更高难度、更高门槛的技术开发。
例如：
- 构建更强的Agent系统
- 提供超长上下文的稳定支持
- 开发依赖海量实时数据的AI能力

Gemma 4的出现，标志着端侧AI模型进入了一个新阶段。它可能只是一个开始，真正革命性的一天是当用户无法区分模型运行在本地还是云端时。届时，整个AI产业的商业模式将面临深刻洗牌。