Opus 4.8烧1万美元,冲顶AI最难考试,断崖领先GPT-5.5近4倍

豪掷万金登顶RHAE,断崖领先GPT-5.5近4倍

根据最新榜单,Claude Opus 4.8(High)在号称“AI最难考试”的RHAE评测中拿下榜首,得分1.5%,是第二名成绩的整整3倍。更惊人的是,跑一次完整评测就要烧掉1万美元——相当于普通开发者半年的API预算。对比同样以开发能力见长的GPT-5.5,Opus 4.8的领先幅度接近4倍,但代价是每轮推理能耗足以让小型团队望而却步。

从偷懒王到零不良,Opus 4.8的诚实革命

此前大模型普遍存在“代码瑕疵蒙混过关”的顽疾——模型自信满满说“跑通了”,实际却藏着未处理的问题。Opus 4.8将这种“偷懒不良率”降低了约4倍,实测可做到0%不良。在代码开发场景中,模型会逐行审查代码细节,主动指出潜在风险而非敷衍了事。不过,这种精确性也带来了副作用:模型不再主动猜测用户未明确的需求,对普通用户的表达能力要求更高。专业开发者会感到“指哪打哪”的畅快,而习惯“你说上句它接下句”的Vibe Coding群体可能觉得体验下降。

Opus 4.8烧1万美元,冲顶AI最难考试,断崖领先GPT-5.5近4倍

思考强度全开放,Fast模式大降价

Anthropic将原本仅限实验的“努力等级”(effort)控制开放给了所有用户,包括免费用户。从Low到Max共四个档位,搭配自适应思考可满足不同场景——简单问答用Low省算力,复杂开发用Max保质量。同时,快速模式(Fast mode)迎来重大降价:价格从标准版的6倍降至2倍,当前定价为每百万输入10美元、每百万输出50美元,速度仍维持标准版的2.5倍。这一调整让高频开发者能以更低成本体验高速推理。

内容创作仍存遗憾,Opus 4.6用户怀念

尽管Opus 4.8在代码能力上大幅进步,内容创作领域却让老用户失望。实测显示,其写作输出仍带有明显的“AI刻板痕迹”,例如滥用“不是XX、而是XX”的排比结构,或使用“高速运转的机器里的润滑油”等生硬比喻。相比被顶替下线的Opus 4.6,新模型在创意写作上差距明显——原本适配Opus 4.6的内容工作流需要全部重构。Anthropic似乎将优化重心完全倒向代码与开发场景,对人文创作则采取了保守策略。

独家爆料:Mythos即将登场,Claude Code动态工作流上线

Anthropic内部还有一款代号Mythos的更高智能等级模型,预计几周内向所有客户开放。同时,Claude Code新增动态工作流(dynamic workflows)功能:模型可自动编写编排脚本,一次性拉起数十甚至上百个子Agent并行处理大型任务,完成后自验再交付结果。该功能可通过特殊努力等级“Ultracode”自动启用,专为跨服务故障排查、数百文件迁移等庞杂任务设计。不过,当前Opus 4.8在Agent能力基准Terminal-Bench 2.1上仍落后于GPT-5.5,暗示OpenAI在终端自主执行领域仍保持优势。