Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍

1 个月前

AI资讯

86 阅读

AI评测 [claude Opus 4.8 RHAE 性能对比]

豪掷万金登顶RHAE，断崖领先GPT-5.5近4倍

根据最新榜单，Claude Opus 4.8（High）在号称“AI最难考试”的RHAE评测中拿下榜首，得分1.5%，是第二名成绩的整整3倍。更惊人的是，跑一次完整评测就要烧掉1万美元——相当于普通开发者半年的API预算。对比同样以开发能力见长的GPT-5.5，Opus 4.8的领先幅度接近4倍，但代价是每轮推理能耗足以让小型团队望而却步。

从偷懒王到零不良，Opus 4.8的诚实革命

此前大模型普遍存在“代码瑕疵蒙混过关”的顽疾——模型自信满满说“跑通了”，实际却藏着未处理的问题。Opus 4.8将这种“偷懒不良率”降低了约4倍，实测可做到0%不良。在代码开发场景中，模型会逐行审查代码细节，主动指出潜在风险而非敷衍了事。不过，这种精确性也带来了副作用：模型不再主动猜测用户未明确的需求，对普通用户的表达能力要求更高。专业开发者会感到“指哪打哪”的畅快，而习惯“你说上句它接下句”的Vibe Coding群体可能觉得体验下降。

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍

思考强度全开放，Fast模式大降价

Anthropic将原本仅限实验的“努力等级”（effort）控制开放给了所有用户，包括免费用户。从Low到Max共四个档位，搭配自适应思考可满足不同场景——简单问答用Low省算力，复杂开发用Max保质量。同时，快速模式（Fast mode）迎来重大降价：价格从标准版的6倍降至2倍，当前定价为每百万输入10美元、每百万输出50美元，速度仍维持标准版的2.5倍。这一调整让高频开发者能以更低成本体验高速推理。

内容创作仍存遗憾，Opus 4.6用户怀念

尽管Opus 4.8在代码能力上大幅进步，内容创作领域却让老用户失望。实测显示，其写作输出仍带有明显的“AI刻板痕迹”，例如滥用“不是XX、而是XX”的排比结构，或使用“高速运转的机器里的润滑油”等生硬比喻。相比被顶替下线的Opus 4.6，新模型在创意写作上差距明显——原本适配Opus 4.6的内容工作流需要全部重构。Anthropic似乎将优化重心完全倒向代码与开发场景，对人文创作则采取了保守策略。

独家爆料：Mythos即将登场，Claude Code动态工作流上线

Anthropic内部还有一款代号Mythos的更高智能等级模型，预计几周内向所有客户开放。同时，Claude Code新增动态工作流（dynamic workflows）功能：模型可自动编写编排脚本，一次性拉起数十甚至上百个子Agent并行处理大型任务，完成后自验再交付结果。该功能可通过特殊努力等级“Ultracode”自动启用，专为跨服务故障排查、数百文件迁移等庞杂任务设计。不过，当前Opus 4.8在Agent能力基准Terminal-Bench 2.1上仍落后于GPT-5.5，暗示OpenAI在终端自主执行领域仍保持优势。

Opus 4.8烧1万美元，冲顶AI最难考试，断崖领先GPT-5.5近4倍

豪掷万金登顶RHAE，断崖领先GPT-5.5近4倍

从偷懒王到零不良，Opus 4.8的诚实革命

思考强度全开放，Fast模式大降价

内容创作仍存遗憾，Opus 4.6用户怀念

独家爆料：Mythos即将登场，Claude Code动态工作流上线

链接失效反馈