Claude Opus 4.7来了,公开模型里的SOTA,不过用起来GPT味好浓
背景:Anthropic的模型演进
Anthropic自2021年成立以来,持续推出Claude系列模型,强调安全性和可控性,试图与OpenAI等竞争对手形成差异化。经过多轮迭代,Claude系列已在多个基准测试中展现出强大能力。此次推出的Opus 4.7并非最强大的版本,其性能略逊于未公开发布的Mythos Preview,但仍是目前公开模型中综合表现最强的一代。
-
模型演进路线:
- Opus 4.6 → Opus 4.7(当前公开最强)
- 同期发布Mythos Preview(未公开,用于特定场景)
-
定位差异:
- Mythos Preview性能更强,但因安全顾虑未全面开放
- Opus 4.7为“量产安全版”,适合广泛开发者和企业使用
核心升级:四大方向全面强化
Anthropic官方总结Opus 4.7的升级集中在四个方面:编码能力、视觉推理、任务韧性与工具调用。在多个基准测试中,该模型表现亮眼,部分指标甚至超越了GPT-5.4和Gemini 3.1 Pro。
编码能力跃升
- 在SWE-bench Pro测试中,解决率从53.4%提升至64.3%
- Rakuten-SWE-Bench任务完成数量为4.6版本的3倍
- CursorBench从58%提升至70%,意味着更稳定和精确的代码生成
视觉推理增强
- 支持最大2576像素长边图像解析(约为3.75百万像素)
- XBOW测试视觉敏锐度达98.5%,远超前代54.5%
- 可处理高密度UI、复杂技术图、1080p截图(含灰色小字)
工具调用更高效
- MCP-Atlas工具调用测试得分为77.3%,超过GPT-5.4(68.1%)和Gemini(73.9%)
- 多步骤工作流成功率提升14%,工具调用错误率下降至1/3
任务韧性显著提升
- 在无人干预下完成复杂项目,如构建完整的Rust文本转语音引擎
- 包括神经网络模型、SIMD内核、浏览器演示及验证流程
使用体验变化:GPT化倾向明显
尽管Anthropic强调Claude Opus 4.7的“独立性”和“安全性”,但不少用户在实际使用中感受到与GPT系列模型的相似性,尤其是在行为模式和输出风格上。
-
用户反馈称其在处理模糊提示时不再“灵活解读”,而是严格按字面执行
-
类似GPT的“硬执行”策略,如:
- 明确拒绝使用TypeScript
- 严格只输出JSON,不添加任何前缀或说明
-
提示词重构需求增加:
- 软性修饰词(“if possible”、“try to”)的权重变高
- 需要更明确的指令和限制条件,模型才不会“擅自发挥”
-
任务预算机制引入:
- API新增任务预算功能(Task Budgets),用于控制长任务的token消耗
- 适合多步骤Agent任务,开发者可设定资源优先级
安全与伦理:有意削弱网络攻防能力
Anthropic在训练Opus 4.7时有意降低了其在网络安全方面的表现,作为对Mythos Preview引发的热议的一种缓冲策略。
- 在Agentic search(BrowseComp)评测中,4.7得分从83.7%降至79.3%
- 被GPT-5.4(89.3%)和Gemini(85.9%)超越
- Anthropic表示此为“差异化设计”,避免模型被滥用
- 若用于合法网络安全研究(如漏洞挖掘、红队演练),需通过正式渠道申请
这一策略与Anthropic一贯强调的“负责任AI”理念一致,体现出在开放模型与安全控制之间的权衡。
应用与部署:全面上线主流平台,定价亲民
Opus 4.7已在所有Claude产品线及API中上线,包括:
-
支持平台:
- Claude Pro / Max / Team / Enterprise
- Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Foundry
-
定价策略:
- 输入:5美元/百万tokens
- 输出:25美元/百万tokens
- 与4.6版本保持一致
新增功能包括:
/ultrareview命令,用于深度代码审查- Auto Mode权限扩展至Max用户,实现更智能的任务执行与控制
此外,Anthropic建议开发者从high或xhigh努力级别开始测试,逐步调整策略以适应模型的“多思考”特性。
未来展望:Mythos Preview即将登场
尽管Opus 4.7已是目前公开最强版本,但Anthropic已小范围开放更强大的Mythos Preview用于特定领域研究。
- Mythos Preview以“Project Glasswing”名义提供
- 主要用于网络安全研究
- 暂未公开,因其攻防能力过于强大
Opus 4.7的发布不仅巩固了Claude系列在公开模型中的领先地位,也为后续更强大模型的发布铺平了道路。对于企业用户而言,这种“稳定+可控”的更新节奏,正成为AI应用落地的重要支撑。