接连两位大咖出走,谷歌到底出了什么 BUG?
模型迭代“卡壳”:大半年只有Gemini 3.1,对手却在疯狂进化
从2025年11月谷歌发布Gemini 3,皮查伊亲自站台称其为“最智能的模型”,到如今大半年过去,谷歌拿出的仅是一个差别不大的Gemini 3.1。反观Anthropic,半年前只是Opus 4.5,如今Fable 5已停用一个多礼拜;OpenAI的Codex独立App上线首周下载量破百万,周活数月内冲到400万。谷歌在模型层面似乎陷入了“高分低能”陷阱:benchmark分数刷得漂亮,但真实任务中,连续20个步骤的纠错成功率仅36%左右。当对手用Agent产品证明自己“真能干活”时,谷歌还在原地修修补补。

内部“诸侯割据”:五个AI编程工具互打架,用户一脸懵
如果你翻一翻谷歌的开发者产品线,会发现一个诡异现象:Gemini CLI、Jules、Code Assist、Firebase Studio、Antigravity……五六个工具都在做同一件事——用AI写代码,但各有独立品牌、不同入口、不同收费模式,甚至有的互相替代。2025年底随Gemini 3推出的Gemini CLI,到2026年6月就被宣布将被Antigravity CLI取代;而Antigravity本身口碑极差,2.0版本发了一个多月,官网连企业版定价都没有。用户站在一堆名字前只会困惑:“今天到底该用谷歌哪个工具?”而OpenAI和Anthropic早已用统一产品(Codex、Claude Code)按人头收费,把开发者牢牢攥在手里。
Agent时代掉队:benchmark刷分没用,真干活时谷歌拿不出手
谷歌不是没有资源——它有自研TPU(第七代Ironwood单芯片算力翻倍)、全栈入口(Chrome、Android、YouTube日活几十亿)和Nano Banana这样迭代极快的爆款。但Agent产品不是“给用户一张图”那么简单:它需要跨模型、权限、执行环境、企业系统和长期责任。谷歌的Agent能力被拆分在Google DeepMind(管模型刷分)、Google Labs(做产品热度)、Google Cloud(签企业单)三个互不统属的组织里,每个组织有自己的KPI——DeepMind说“我们刷榜了”,Labs说“Jules转发10万”,Cloud说“签了多少客户”,但没有一个人能回答“一个开发者今天到底该用哪个工具”。当OpenAI的Codex和Anthropic的Claude Code已经能自主修bug、从设计稿生成生产代码时,谷歌的Antigravity 2.0还停留在让用户“拿手上玩玩”的阶段。大咖出走,不过是这场系统性内耗的必然结果。