Anthropic发布Claude Opus 4.8,重点是:“我不会骗你”

就在外界以为Claude Opus 4.7刚站稳脚跟时,Anthropic以极快节奏亮出新一代旗舰。当地时间周四,Claude Opus 4.8正式上线,距离4月发布的Opus 4.7仅隔一个多月,甚至比此前代码泄露暗示的“6月中旬”更早落地。新模型在编程、智能体(Agent)和复杂任务上继续强化,但最引人注目的并非跑分提升,而是一句朴素的承诺:“我不会骗你。”

不愿胡说八道:Claude Opus 4.8诚实度大幅跃升

Anthropic将“诚实度”(honesty)列为Opus 4.8的核心改进方向。传统大模型在面对不确定信息时,常常硬着头皮给出看似合理的答案,甚至编造内容。Opus 4.8则不同——它更倾向于主动标记疑点,直接表达“我不太确定”,而非强行凑出结论。内部评估显示,新模型产生无依据结论的倾向明显下降;具体到编程场景,Opus 4.8允许其编写代码中存在缺陷却未加提示的概率,仅为其前代Opus 4.7的四分之一左右。

这一改进在对齐性(Alignment)评估中同样得到印证。Anthropic称,Opus 4.8在“支持用户自主权、始终维护用户最佳利益”等亲社会特质上均达到新高,而欺骗、协助滥用等未对齐行为的出现概率显著低于Opus 4.7,已逼近其内部对齐性最好的模型——Claude Mythos预览版的水平。换句话说,当用户问它某个难题时,它宁可说“不知道”,也不愿胡编一个答案。

给AI装上油门旋钮:用户可调的“思考投入”机制

传统大模型处理任务时往往“一视同仁”地投入相同计算资源,既不灵活也容易浪费。Opus 4.8引入了“投入控制”(effort control)机制,允许用户直接控制Claude为任务投入多少“思考资源”。对于简单问题,可减少计算投入以降低token消耗;对于复杂推理任务,则可提高推理强度,换取更高质量的输出。这种在速度、成本和推理深度之间自由权衡的能力,让开发者能根据实际需求精准调节模型行为。

Anthropic发布Claude Opus 4.8,重点是:“我不会骗你”

与此同时,Anthropic推出了“快速模式”(Fast Mode),运行速度可达常规模式的2.5倍,而成本仅为此前模型的三分之一。快速模式的定价为每百万输入token收费10美元,虽然比常规模式(每百万输入5美元)贵一倍,但考虑到速度提升和整体成本降低,对需要高频响应的场景极具吸引力。常规模式仍维持与Opus 4.7相同的价格:每百万输入5美元,每百万输出25美元。

从聊天到指挥:动态工作流让Claude调动数百智能体

Opus 4.8不再满足于单轮对话或简单指令,而是向“长期自主执行系统”跃进。新功能“动态工作流”(Dynamic Workflows)被整合进Claude Code,允许模型在单个任务中协调数百个并行子智能体:自动规划、拆解任务、并行执行,最终验证并输出结果。这意味着开发者可以用一句话让Claude自动处理跨数十万行代码的代码库迁移,或者完成需要多步骤协作的财务分析流程。

Anthropic公布的评测数据显示,在衡量浏览器智能体和在线操作能力的Online-Mind2Web基准测试中,Opus 4.8获得84%的成绩,优于Opus 4.7和GPT-5.5。在Super-Agent基准测试中,它是唯一能完整完成所有案例的模型,且成本效益与GPT-5.5旗鼓相当。早期用户反馈也印证了这一点:AI编程产品Devin的开发商指出,Opus 4.8改善了此前版本存在的注释冗长和工具调用问题;法律与税务工作流平台CoCounsel则称,新模型在一致性和推理质量方面提升明显。

编程、金融、法律全面开花:基准测试成绩亮眼

除了诚实度和智能体能力,Opus 4.8在具体任务上的表现同样突出。在SWE-Bench Pro(软件工程基准)上,它拿下69.2%的分数,超越GPT-5.5和Gemini 3.1 Pro。在CursorBench工具调用效率测试中,Opus 4.8的得分也显著提升。Anthropic表示,新模型在编码、多学科推理、智能体计算机使用、知识工作及金融分析等领域均有改进,使其成为“更有效的协作者”。

值得注意的是,尽管Opus 4.8在多个基准上领先,但整体市场趋势显示各实验室模型性能差距正显著缩小。OpenAI的GPT-5.5在创意及指令遵循任务上仍领先,谷歌的Gemini 3.1 Pro则在多模态及长文本任务中占优。Anthropic选择用更快的迭代速度、更多系统级功能升级来巩固其高端企业AI市场的定位。

定价不变但多了“快速模式”,更强大的Mythos已在路上

Opus 4.8现已全面上线,Pro、Max、Team、Enterprise用户可直接使用,开发者可通过Claude API调用claude-opus-4-8模型。定价方面,常规模式与Opus 4.7完全一致。新增的“快速模式”则为追求响应速度的用户提供了一个新选项。

Anthropic并未停下脚步。作为Glasswing项目的一部分,目前已有少数机构开始试用Claude Mythos预览版,并将其应用于网络安全相关工作。Mythos被描述为“比Opus更智能的新型号”,但因其极高能力水平,Anthropic强调需要先建立更强大的网络安全防护体系。公司表示,这些防护措施进展迅速,预计“未来数周内”即可将Mythos级别模型正式向所有客户开放。从Opus 4.7到4.8再到Mythos,Anthropic正以肉眼可见的速度,从“模型能力竞争”迈向“智能体系统竞争”,而“不会骗你”的诚实路线,或许正是它区别于其他厂商最鲜明的标签。