Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

1 个月前

AI资讯

59 阅读

[claude 诚实度对齐性智能体并行]

不再强行编答案：Claude Opus 4.8诚实度创历史新高

Anthropic将“诚实度”列为Opus 4.8的核心升级之一。新模型在面对不确定信息时，会主动标记疑点、表达不确定性，而非“强行给出答案”。内部评估显示，Opus 4.8编写代码中存在缺陷却未加提示的概率，仅为其前代模型Opus 4.7的四分之一左右。在发布前的对齐性评估中，新模型在“支持用户自主权”“始终维护用户最佳利益”等亲社会特质上达到新高，出现欺骗、协助滥用等未对齐行为的概率显著低于Opus 4.7，且已与Anthropic当前对齐性最佳的模型——Claude Mythos预览版——相媲美。此外，Anthropic引入“投入控制”机制，允许用户直接控制Claude为任务投入多少“思考资源”，进一步强化了对模型输出的掌控力。

Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

从“单打独斗”到“千人军团”：动态工作流让数百智能体并行作战

Opus 4.8推出面向大型任务的新功能“动态工作流”，使模型能协调数百个子智能体并行处理复杂问题。例如，在代码库迁移等大规模工程任务中，Claude Code可部署并行子智能体，实现自主、高效的问题解决。业内人士指出，一个人同时调度上百个智能体将成为常态，这彻底解决了此前Agent排队等待、资源闲置的痛点。动态工作流标志着Claude从聊天模型向“长期自主执行系统”演进，更适合自主工程Agent、法律分析、金融研究以及企业复杂流程场景。

2.5倍速度与1/3成本：快速模式颠覆性价比认知

Opus 4.8新增“快速模式”，在该模式下模型运行速度可提升至常规的2.5倍，成本仅为此前模型的三分之一。快速模式定价为每百万输入token收费10美元，而标准模式维持Opus 4.7的定价：每百万输入token 5美元，每百万输出token 25美元。这一组合让开发者既能选择高性价比的常规推理，也能在需要实时响应时切换至快速模式，极大拓展了使用场景。

超越GPT-5.5，对齐性比肩Mythos：Opus 4.8全维碾压

在衡量浏览器智能体和在线操作能力的Online-Mind2Web基准测试中，Opus 4.8获得84%的成绩，不仅优于Opus 4.7，更胜过GPT-5.5。长流程任务中，模型保持了更稳定的目标一致性和工具调用能力。AI编程产品Devin开发商反馈新模型改善了注释冗长和工具调用问题；法律与税务工作流平台CoCounsel称赞其在一致性和推理质量上的提升。Opus 4.8已上线Claude生态，Pro、Max、Team、Enterprise用户可直接使用，开发者可通过API调用。Anthropic还透露，作为Glasswing项目的一部分，少数机构已开始试用Claude Mythos预览版，在正式大众发布前需要建立更强健的网络安全防护体系。

Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

不再强行编答案：Claude Opus 4.8诚实度创历史新高

从“单打独斗”到“千人军团”：动态工作流让数百智能体并行作战

2.5倍速度与1/3成本：快速模式颠覆性价比认知

超越GPT-5.5，对齐性比肩Mythos：Opus 4.8全维碾压

链接失效反馈