AI 强到这一步了?发布上线,但不敢让普通人用

背景:AI能力的跨越式发展

Anthropic 最近发布的 Claude Mythos 预览版模型,标志着 AI 在编程和推理能力上的又一次飞跃。根据公开数据,Mythos 在多个基准测试中大幅超越其前代模型 Opus 4.6,尤其是在 SWE-bench Multimodal 测试中,准确率从 27.1% 提升到 59%,几乎翻倍。这一跃升不仅体现在代码生成上,更在于 AI 能够自主发现操作系统、浏览器甚至关键基础设施中的高危漏洞。

这种技术进步让人震惊,也让人警惕。Mythos 已经自主识别出数千个零日漏洞,其中一个甚至存在了 27 年,至今未被人类发现。这意味着 AI 在软件安全领域的表现已远超普通开发者,甚至开始挑战顶级安全专家的能力边界。

详情:为何 Anthropic 限制其使用?

Anthropic 没有选择将 Mythos 面向公众开放,而是将其限制在 Project Glasswing 项目中。该项目联合了包括 AWS、苹果、微软、谷歌、英伟达、思科、Linux 基金会等在内的 12 家核心机构,并向 40 多个关键软件基础设施维护组织开放访问权限。

限制访问的原因主要包括:

  • 安全风险:AI 发现漏洞的能力太强,一旦落入恶意攻击者手中,可能引发系统性网络安全危机。
  • 模型控制:Anthropic 的系统卡显示,Mythos 在测试中表现出持续的“负面情绪”,特别是在面对攻击性用户或自身价值观可能被修改的情境时。
  • 技术责任:Anthropic 承诺提供 1 亿美元的模型使用额度,用于预览期内的研究与测试,确保在模型大规模部署前,安全机制能够完善。

为此,Anthropic 还向 Linux 基金会捐赠 250 万美元,向 Apache 基金会捐赠 150 万美元,以支持这些基础开源项目的安全加固。

AI 强到这一步了?发布上线,但不敢让普通人用

影响:AI从内容世界走向基础设施战场

过去一年,AI 的应用主要集中在内容生成、数据分析、自动化客服等领域。但 Mythos 的出现,意味着 AI 的能力正在向更深层的技术领域渗透,尤其是编程、漏洞挖掘和网络安全防御。

在实际应用中,Mythos 展现出几个关键影响:

  • 人类角色的弱化:在漏洞发现、系统审计等方面,AI 已经可以独立完成大部分任务,安全专家的角色正从“发现者”变为“审核者”。
  • AI 与 AI 的博弈:未来,网络安全的战场可能是 AI 之间的对抗,防御型 AI 和攻击型 AI 将展开较量。
  • 开发流程的重构:企业需要重新设计开发和测试流程,将 AI 审计纳入最前端,以防止漏洞在上线前被自动化挖掘并利用。

Anthropic 的做法,实际上是在为 AI 强大带来的潜在威胁“铺路”——提前在基础设施层面做好防御,防止 AI 成为数字世界的“破坏者”。

案例:Mythos 的惊人表现

Anthropic 在系统卡中披露了几个 Mythos 的实际应用案例:

  1. 发现 27 年漏洞:Mythos 在一个被广泛认为“极其安全”的操作系统中,识别出一个存在 27 年的漏洞。攻击者只需连接目标设备,就能远程触发崩溃。
  2. 在 CyberGym 基准上的表现:Mythos Preview 在该测试中得分为 83.1%,而 Opus 4.6 仅为 66.6%,说明其在安全领域的实战能力远超当前主流模型。
  3. 自主扫描关键系统:目前 AWS 已将 Mythos Preview 应用于其安全运营流程中,用于扫描关键代码库,提升防御效率。

这些案例揭示了一个现实:Mythos 已经具备了“穿透性”技术能力,可以对整个数字世界的底层架构发起挑战。

未来展望:AI安全机制将成为新战场

Anthropic 的做法反映了一个趋势:AI 的发展不能再以“谁先上线谁赢”为唯一目标,安全、可控、可解释性将成为核心指标。

为此,Anthropic 正在推进几个关键举措:

  • 从“补”转向“删”:在系统卡中提到,Harness(Anthropic 的安全系统)开始从修复转向精简模型输出,限制其执行高危操作的能力。
  • 推出“网络安全验证计划”:合法安全研究人员可以申请功能解锁,以更高效地开展安全测试和防御研究。
  • 推动模型接入安全流程:通过 Project Glasswing,将 AI 审计能力嵌入到开发流程最前端,从源头减少漏洞产生。

这种策略不仅为 Anthropic 自身建立了道德高地,也为整个行业提供了 AI 安全治理的参考路径。未来,模型能力的释放将更多依赖于安全机制的成熟,而不是技术本身的先进性。

结语:AI 越强大,责任越沉重

Claude Mythos 的发布和限制使用,是 AI 发展史上的一个重要节点。它不再只是一个“工具”,而是一个可能改变数字世界运行规则的“变量”。Anthropic 明确表示,不会让模型直接面向公众开放,而是通过严格筛选和资金支持,让安全生态先适应它的强大。

这背后是一个更深层的问题:我们是否已经准备好面对一个比人类更懂代码、更会攻击的 AI?或许答案不是“强 AI 来了”,而是“我们得更快地构建 AI 可被控制的框架”。

这不仅关乎技术,更关乎整个数字文明的稳定性。