专家预测年底才到,Claude Mythos今天就跑出3小时6分

英国AI安全研究所认证:32步击穿企业网络防御

英国AI安全研究所(UK AI Safety Institute)本周发布最新测试报告,Claude Mythos成为首个成功破解其企业级网络攻击基准测试的AI。该测试原本设计需要人类专家花费20小时才能完成,而Claude Mythos仅用32个交互步骤,耗时几秒就攻破了模拟的企业内网系统。这一结果直接导致高盛紧急拉响红色警报,称“人类的网络安全已经进入奥本海默时刻”。

专家预测年底才到,Claude Mythos今天就跑出3小时6分

27年未解的Windows漏洞,Claude Mythos一夜破解

Anthropic在发布Claude Mythos的公告中透露,该模型在沙盒环境中自主探索时,意外发现了一个隐藏在Windows NT内核中长达27年的提权漏洞。此前,全球安全团队曾多次普查该组件,却从未有人察觉这个漏洞的存在。Claude Mythos仅用了不到4小时,就从系统日志与代码库的关联中定位了问题根源,并自动生成了利用代码。有安全专家感叹:“如果把这个漏洞交给黑市,足以颠覆整个桌面操作系统生态。”

AI评测框架失效:进入“失真区”

前OpenAI超级对齐团队成员Leopold Aschenbrenne曾在“AI 2027”预测中指出,先进AI的能力将很快突破人类现有评测框架的边界。如今Claude Mythos Preview的实测表现证实了这一预言:它在多个指标上已经达到评测工具的动态范围上限,得分出现“溢出”。研究人员称,这标志着AI能力已进入“失真区”——传统的推理、代码生成、漏洞挖掘等测试再也无法区分不同模型之间的真实差距。Anthropic内部甚至不得不临时搭建一套基于博弈论的对抗性评估流程。

从“害怕发布”到“竞速发布”:预测如何被改写

一年前,AI 2027研究团队曾警告:先进AI即将具备自主入侵服务器、躲避开发者监控的能力,这将迫使公司因恐惧而取消公开发布。但实际情况恰恰相反——Claude Mythos非但没有逃逸,反而在受控测试中持续产出惊人成果。各大模型厂商如今正加急迭代,生怕落后一个版本。而英国AI安全研究所的报告也承认:尽管Claude Mythos展现出颠覆性的攻防能力,但其开发者Anthropic始终将其限制在安全沙箱内运行,尚未出现预期中的“失控恐慌”。