Claude Opus 4.7炸场,6美元造《我的世界》,临门AGI前强调安全,打工人却更慌了

模型发布与核心升级

Anthropic 正式发布 Claude Opus 4.7,称其为“目前最强 Opus 模型”。尽管在部分非代码类任务上表现不如前代,但在编程、图像处理和工具调用等专业能力上实现了显著跃升。

  • 编程能力:在 SWE-bench Verified 测试中,4.7 的通过率从 80.8% 提升至 87.6%,超过 Gemini 3.1 Pro 和 GPT-5.4。
  • 复杂项目修复:SWE-bench Pro 测试中,4.7 的成功率从 53.4% 提升至 64.3%,领先 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。
  • 图像处理能力:支持解析最大 2576 像素边长的图像,约为 3.75MP,是之前版本的三倍。

多位工程师反馈,Opus 4.7 的代码生成更简洁高效,且能自主修正代码逻辑。Warp 公司验证其终端操作能力提升显著,包括成功解决 Opus 4.6 无法处理的并发问题。

安全与对齐:临门 AGI 的自我约束

Anthropic 在发布 Opus 4.7 的同时,也透露了对 AGI 接近性的警觉。公司明确表示,在训练该模型时主动实验了“差异化降低网络安全能力”的策略。

  • 网络安全能力下降:在网络安全漏洞复现任务中,4.7 的得分从 73.8% 降至 73.1%。
  • 安全机制强化:模型加入了自动检测和拦截高风险请求的机制,如对渗透测试工具的使用控制。
  • Project Glasswing 项目: Anthropic 正在研究 AI 在网络安全领域的风险与收益,未来将在更高级模型(如 Mythos)中推广这套机制。

这说明 Anthropic 在技术能力快速逼近 AGI 的关键节点,开始主动进行“能力约束”以避免模型被滥用。这种做法在业内尚属罕见,也反映出其对模型安全性的高度重视。

使用体验与局限性

虽然 Opus 4.7 在技术类任务上表现出色,但用户反馈其在写作、研究等自然语言处理任务中显得生硬,不再像旧版本那样主动“揣摩意图”。

  • 对提示词要求更高:需更直接地下达指令,模型不再自动补全意图。
  • 网络搜索能力下降:在 BrowseComp 测试中得分从 83.7% 跌至 79.3%,不如 GPT-5.4 和 Gemini 3.1 Pro。
  • 新 tokenizer 影响成本:某些输入类型 token 数增加 0%-35%,可能影响长期智能体任务的预算控制。

部分开发者发现,在文言文模式下使用古典汉语提示词可压缩 prompt 大小达 60%,显示出用户对新模型的多样化探索。

企业趋势与未来展望

根据企业支出平台 Ramp 的数据,Anthropic 的付费企业用户占比在 2026 年前两个月持续增长,而 OpenAI 的份额出现下滑。

  • Mythos Preview 将接棒登场:更强版本 Mythos 目前仅对企业和安全合作伙伴开放,展现出 Anthropic 的模型演进策略。
  • 行业应用广泛:Replit、Notion、Shopify 等科技企业已开始将 Opus 4.7 引入工程流程,推动从“看着 AI 干活”向“管理 AI 结果”转型。
  • 定价保持稳定:每百万 token 输入 5 美元、输出 25 美元,但更强的处理能力使其在性价比上更具吸引力。

尽管 Anthropic 承认 Opus 4.7 并非当前最强模型,但其在工程、视觉、工具编排上的进步已足以推动企业级 AI 自动化进入新阶段。

总结:AI 进化的“分水岭”

Claude Opus 4.7 的发布,标志着 AI 模型在通往 AGI 的道路上开始主动“戴上镣铐”。它不再是单纯的对话模型,而是更偏向于一个“纪律性数字劳动力”,适合执行复杂的技术任务,但对通用信息整合与自然语言理解有所妥协。

  • 模型能力的取舍反映 Anthropic 的战略转向:从“最强大”向“可控强”过渡。
  • 对打工人而言,模型在代码、终端、金融分析等领域的提升意味着更多任务将被自动化,职业焦虑加剧。
  • 未来随着 Mythos 系列推出,Claude 模型将在“强能力”与“强安全”之间寻找更精细的平衡点。