Anthropic发布Opus 4.8,关键一项还是输了GPT-5.5
Vertex后台意外泄露,Opus 4.8提前现身
开发者意外发现,在Google Vertex AI平台的模型列表中,赫然出现了“claude-opus-4.8”的标识。这并非Anthropic的官方发布,而是模型在后台测试时被捕捉到的痕迹。根据过往经验,Opus 4.6和Opus 4.7均先通过此类方式曝光,随后才正式上线——许多人预计Opus 4.8最快在下个月就会与用户见面。这枚“底牌”的提前翻出,让整个AI社区的期待值瞬间拉满。
Sonnet 4.8跳级,51万行代码泄天机
比Opus 4.8更戏剧性的是Sonnet 4.8的泄露轨迹。3月31日,Anthropic在推送Claude Code的npm更新时,因一行配置缺失,将一份59.8MB、包含51.2万行TypeScript源代码的source map完整推送到了公共仓库。这一“普通的开发者失误”直接曝光了未发布的关键词过滤器,其中出现了Sonnet 4.8和Opus 4.7的引用,却没有任何Sonnet 4.7。证据表明:Anthropic计划跳过Sonnet 4.7,直奔4.8。据预测,Sonnet 4.8将继承Opus 4.7的视觉升级——后者在UI Mockup和复杂架构图上的识别准确率已达98.5%,Sonnet 4.8有望把这个能力下放到更便宜的层级。
Mythos 1短暂现身,安全防线浮出水面
几乎同一天,代号“Mythos 1”的模型选项在Claude界面中短暂闪现,很快消失。但源代码中新增的字符串泄露了关键信息:模型标识为“claude-mythos-1-preview”,并出现“Claude Code”、“Claude Security”字样。一个全新的安全仪表盘正在搭建中,将展示已发现漏洞、7天和30天历史图表,以及更深层分类分析。Anthropic正用“代码+安全”的双螺旋结构,为通往ASI扣上最后一枚安全锁——目前该能力仅面向企业客户开放。
GPT-5.5强势反击:Agent场景碾压,编码修复留有死角
就在Anthropic三连击的同时,OpenAI发布了GPT-5.5。基准测试数据极为刺眼:GPT-5.5在Agent场景(终端操作、电脑使用、知识工作、科研)大幅领先Claude Opus 4.7,具备自主操作电脑环境的能力,可完成复杂任务。唯一令Anthropic粉丝稍感慰藉的是——在纯编码修复任务SWE-Bench Pro上,Opus 4.7依然保住了胜利,尽管差距正在缩小:Opus每个任务平均进行10.2次补丁调用,GPT-5.5为9.9次,且GPT-5.5进行了约两倍的shell调用和更多搜索,探索风格更激进。
诸神之战:谁能在ASI大门前抢先扣锁?
Gemini 3.5 Pro也预计于6月入局。Anthropic手握Opus 4.8、Sonnet 4.8、Mythos 1三张底牌,OpenAI则用GPT-5.5在Agent领域划出鸿沟。短期来看,Anthropic在安全层面布局更早(Mythos 1专门针对代码生成和安全),但在通用智能体能力上,GPT-5.5的“前端爆发力”和自主操作能力让对手难以追赶。究竟是“安全+代码”的暴力美学更先扣上ASI的安全锁,还是GPT-5.6(已在后台出现)用更全能的Agent能力撬开大门?这场竞争远未结束。