Claude Opus 4.7来了,公开模型里的SOTA,不过用起来GPT味好浓

背景:Anthropic的模型演进

Anthropic自2021年成立以来,持续推出Claude系列模型,强调安全性和可控性,试图与OpenAI等竞争对手形成差异化。经过多轮迭代,Claude系列已在多个基准测试中展现出强大能力。此次推出的Opus 4.7并非最强大的版本,其性能略逊于未公开发布的Mythos Preview,但仍是目前公开模型中综合表现最强的一代。

  • 模型演进路线:

    • Opus 4.6 → Opus 4.7(当前公开最强)
    • 同期发布Mythos Preview(未公开,用于特定场景)
  • 定位差异:

    • Mythos Preview性能更强,但因安全顾虑未全面开放
    • Opus 4.7为“量产安全版”,适合广泛开发者和企业使用

核心升级:四大方向全面强化

Anthropic官方总结Opus 4.7的升级集中在四个方面:编码能力、视觉推理、任务韧性与工具调用。在多个基准测试中,该模型表现亮眼,部分指标甚至超越了GPT-5.4和Gemini 3.1 Pro。

编码能力跃升

  • 在SWE-bench Pro测试中,解决率从53.4%提升至64.3%
  • Rakuten-SWE-Bench任务完成数量为4.6版本的3倍
  • CursorBench从58%提升至70%,意味着更稳定和精确的代码生成

视觉推理增强

  • 支持最大2576像素长边图像解析(约为3.75百万像素)
  • XBOW测试视觉敏锐度达98.5%,远超前代54.5%
  • 可处理高密度UI、复杂技术图、1080p截图(含灰色小字)

工具调用更高效

  • MCP-Atlas工具调用测试得分为77.3%,超过GPT-5.4(68.1%)和Gemini(73.9%)
  • 多步骤工作流成功率提升14%,工具调用错误率下降至1/3

任务韧性显著提升

  • 在无人干预下完成复杂项目,如构建完整的Rust文本转语音引擎
  • 包括神经网络模型、SIMD内核、浏览器演示及验证流程

使用体验变化:GPT化倾向明显

尽管Anthropic强调Claude Opus 4.7的“独立性”和“安全性”,但不少用户在实际使用中感受到与GPT系列模型的相似性,尤其是在行为模式和输出风格上。

  • 用户反馈称其在处理模糊提示时不再“灵活解读”,而是严格按字面执行

  • 类似GPT的“硬执行”策略,如:

    • 明确拒绝使用TypeScript
    • 严格只输出JSON,不添加任何前缀或说明
  • 提示词重构需求增加:

    • 软性修饰词(“if possible”、“try to”)的权重变高
    • 需要更明确的指令和限制条件,模型才不会“擅自发挥”
  • 任务预算机制引入:

    • API新增任务预算功能(Task Budgets),用于控制长任务的token消耗
    • 适合多步骤Agent任务,开发者可设定资源优先级

安全与伦理:有意削弱网络攻防能力

Anthropic在训练Opus 4.7时有意降低了其在网络安全方面的表现,作为对Mythos Preview引发的热议的一种缓冲策略。

  • 在Agentic search(BrowseComp)评测中,4.7得分从83.7%降至79.3%
  • 被GPT-5.4(89.3%)和Gemini(85.9%)超越
  • Anthropic表示此为“差异化设计”,避免模型被滥用
  • 若用于合法网络安全研究(如漏洞挖掘、红队演练),需通过正式渠道申请

这一策略与Anthropic一贯强调的“负责任AI”理念一致,体现出在开放模型与安全控制之间的权衡。

应用与部署:全面上线主流平台,定价亲民

Opus 4.7已在所有Claude产品线及API中上线,包括:

  • 支持平台:

    • Claude Pro / Max / Team / Enterprise
    • Amazon Bedrock
    • Google Cloud Vertex AI
    • Microsoft Foundry
  • 定价策略:

    • 输入:5美元/百万tokens
    • 输出:25美元/百万tokens
    • 与4.6版本保持一致

新增功能包括:

  • /ultrareview命令,用于深度代码审查
  • Auto Mode权限扩展至Max用户,实现更智能的任务执行与控制

此外,Anthropic建议开发者从high或xhigh努力级别开始测试,逐步调整策略以适应模型的“多思考”特性。

未来展望:Mythos Preview即将登场

尽管Opus 4.7已是目前公开最强版本,但Anthropic已小范围开放更强大的Mythos Preview用于特定领域研究。

  • Mythos Preview以“Project Glasswing”名义提供
  • 主要用于网络安全研究
  • 暂未公开,因其攻防能力过于强大

Opus 4.7的发布不仅巩固了Claude系列在公开模型中的领先地位,也为后续更强大模型的发布铺平了道路。对于企业用户而言,这种“稳定+可控”的更新节奏,正成为AI应用落地的重要支撑。