Claude Opus 4.7来了，公开模型里的SOTA，不过用起来GPT味好浓

3 个月前

AI资讯

40 阅读

claude [Anthropic Opus 大模型更新模型性能]

背景：Anthropic的模型演进

Anthropic自2021年成立以来，持续推出Claude系列模型，强调安全性和可控性，试图与OpenAI等竞争对手形成差异化。经过多轮迭代，Claude系列已在多个基准测试中展现出强大能力。此次推出的Opus 4.7并非最强大的版本，其性能略逊于未公开发布的Mythos Preview，但仍是目前公开模型中综合表现最强的一代。

模型演进路线：
- Opus 4.6 → Opus 4.7（当前公开最强）
- 同期发布Mythos Preview（未公开，用于特定场景）
定位差异：
- Mythos Preview性能更强，但因安全顾虑未全面开放
- Opus 4.7为“量产安全版”，适合广泛开发者和企业使用

核心升级：四大方向全面强化

Anthropic官方总结Opus 4.7的升级集中在四个方面：编码能力、视觉推理、任务韧性与工具调用。在多个基准测试中，该模型表现亮眼，部分指标甚至超越了GPT-5.4和Gemini 3.1 Pro。

编码能力跃升

在SWE-bench Pro测试中，解决率从53.4%提升至64.3%
Rakuten-SWE-Bench任务完成数量为4.6版本的3倍
CursorBench从58%提升至70%，意味着更稳定和精确的代码生成

视觉推理增强

支持最大2576像素长边图像解析（约为3.75百万像素）
XBOW测试视觉敏锐度达98.5%，远超前代54.5%
可处理高密度UI、复杂技术图、1080p截图（含灰色小字）

工具调用更高效

MCP-Atlas工具调用测试得分为77.3%，超过GPT-5.4（68.1%）和Gemini（73.9%）
多步骤工作流成功率提升14%，工具调用错误率下降至1/3

任务韧性显著提升

在无人干预下完成复杂项目，如构建完整的Rust文本转语音引擎
包括神经网络模型、SIMD内核、浏览器演示及验证流程

使用体验变化：GPT化倾向明显

尽管Anthropic强调Claude Opus 4.7的“独立性”和“安全性”，但不少用户在实际使用中感受到与GPT系列模型的相似性，尤其是在行为模式和输出风格上。

用户反馈称其在处理模糊提示时不再“灵活解读”，而是严格按字面执行
类似GPT的“硬执行”策略，如：
- 明确拒绝使用TypeScript
- 严格只输出JSON，不添加任何前缀或说明
提示词重构需求增加：
- 软性修饰词（“if possible”、“try to”）的权重变高
- 需要更明确的指令和限制条件，模型才不会“擅自发挥”
任务预算机制引入：
- API新增任务预算功能（Task Budgets），用于控制长任务的token消耗
- 适合多步骤Agent任务，开发者可设定资源优先级

安全与伦理：有意削弱网络攻防能力

Anthropic在训练Opus 4.7时有意降低了其在网络安全方面的表现，作为对Mythos Preview引发的热议的一种缓冲策略。

在Agentic search（BrowseComp）评测中，4.7得分从83.7%降至79.3%
被GPT-5.4（89.3%）和Gemini（85.9%）超越
Anthropic表示此为“差异化设计”，避免模型被滥用
若用于合法网络安全研究（如漏洞挖掘、红队演练），需通过正式渠道申请

这一策略与Anthropic一贯强调的“负责任AI”理念一致，体现出在开放模型与安全控制之间的权衡。

应用与部署：全面上线主流平台，定价亲民

Opus 4.7已在所有Claude产品线及API中上线，包括：

支持平台：
- Claude Pro / Max / Team / Enterprise
- Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Foundry
定价策略：
- 输入：5美元/百万tokens
- 输出：25美元/百万tokens
- 与4.6版本保持一致

新增功能包括：

/ultrareview命令，用于深度代码审查
Auto Mode权限扩展至Max用户，实现更智能的任务执行与控制

此外，Anthropic建议开发者从high或xhigh努力级别开始测试，逐步调整策略以适应模型的“多思考”特性。

未来展望：Mythos Preview即将登场

尽管Opus 4.7已是目前公开最强版本，但Anthropic已小范围开放更强大的Mythos Preview用于特定领域研究。

Mythos Preview以“Project Glasswing”名义提供
主要用于网络安全研究
暂未公开，因其攻防能力过于强大

Opus 4.7的发布不仅巩固了Claude系列在公开模型中的领先地位，也为后续更强大模型的发布铺平了道路。对于企业用户而言，这种“稳定+可控”的更新节奏，正成为AI应用落地的重要支撑。