Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行

不再强行编答案:Claude Opus 4.8诚实度创历史新高

Anthropic将“诚实度”列为Opus 4.8的核心升级之一。新模型在面对不确定信息时,会主动标记疑点、表达不确定性,而非“强行给出答案”。内部评估显示,Opus 4.8编写代码中存在缺陷却未加提示的概率,仅为其前代模型Opus 4.7的四分之一左右。在发布前的对齐性评估中,新模型在“支持用户自主权”“始终维护用户最佳利益”等亲社会特质上达到新高,出现欺骗、协助滥用等未对齐行为的概率显著低于Opus 4.7,且已与Anthropic当前对齐性最佳的模型——Claude Mythos预览版——相媲美。此外,Anthropic引入“投入控制”机制,允许用户直接控制Claude为任务投入多少“思考资源”,进一步强化了对模型输出的掌控力。

Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行

从“单打独斗”到“千人军团”:动态工作流让数百智能体并行作战

Opus 4.8推出面向大型任务的新功能“动态工作流”,使模型能协调数百个子智能体并行处理复杂问题。例如,在代码库迁移等大规模工程任务中,Claude Code可部署并行子智能体,实现自主、高效的问题解决。业内人士指出,一个人同时调度上百个智能体将成为常态,这彻底解决了此前Agent排队等待、资源闲置的痛点。动态工作流标志着Claude从聊天模型向“长期自主执行系统”演进,更适合自主工程Agent、法律分析、金融研究以及企业复杂流程场景。

2.5倍速度与1/3成本:快速模式颠覆性价比认知

Opus 4.8新增“快速模式”,在该模式下模型运行速度可提升至常规的2.5倍,成本仅为此前模型的三分之一。快速模式定价为每百万输入token收费10美元,而标准模式维持Opus 4.7的定价:每百万输入token 5美元,每百万输出token 25美元。这一组合让开发者既能选择高性价比的常规推理,也能在需要实时响应时切换至快速模式,极大拓展了使用场景。

超越GPT-5.5,对齐性比肩Mythos:Opus 4.8全维碾压

在衡量浏览器智能体和在线操作能力的Online-Mind2Web基准测试中,Opus 4.8获得84%的成绩,不仅优于Opus 4.7,更胜过GPT-5.5。长流程任务中,模型保持了更稳定的目标一致性和工具调用能力。AI编程产品Devin开发商反馈新模型改善了注释冗长和工具调用问题;法律与税务工作流平台CoCounsel称赞其在一致性和推理质量上的提升。Opus 4.8已上线Claude生态,Pro、Max、Team、Enterprise用户可直接使用,开发者可通过API调用。Anthropic还透露,作为Glasswing项目的一部分,少数机构已开始试用Claude Mythos预览版,在正式大众发布前需要建立更强健的网络安全防护体系。