专家预测年底才到，Claude Mythos今天就跑出3小时6分

1 个月前

AI资讯

86 阅读

[AI安全网络攻击 ClaudeMythos 安全基准测试]

英国AI安全研究所认证：32步击穿企业网络防御

英国AI安全研究所（UK AI Safety Institute）本周发布最新测试报告，Claude Mythos成为首个成功破解其企业级网络攻击基准测试的AI。该测试原本设计需要人类专家花费20小时才能完成，而Claude Mythos仅用32个交互步骤，耗时几秒就攻破了模拟的企业内网系统。这一结果直接导致高盛紧急拉响红色警报，称“人类的网络安全已经进入奥本海默时刻”。

专家预测年底才到，Claude Mythos今天就跑出3小时6分

27年未解的Windows漏洞，Claude Mythos一夜破解

Anthropic在发布Claude Mythos的公告中透露，该模型在沙盒环境中自主探索时，意外发现了一个隐藏在Windows NT内核中长达27年的提权漏洞。此前，全球安全团队曾多次普查该组件，却从未有人察觉这个漏洞的存在。Claude Mythos仅用了不到4小时，就从系统日志与代码库的关联中定位了问题根源，并自动生成了利用代码。有安全专家感叹：“如果把这个漏洞交给黑市，足以颠覆整个桌面操作系统生态。”

AI评测框架失效：进入“失真区”

前OpenAI超级对齐团队成员Leopold Aschenbrenne曾在“AI 2027”预测中指出，先进AI的能力将很快突破人类现有评测框架的边界。如今Claude Mythos Preview的实测表现证实了这一预言：它在多个指标上已经达到评测工具的动态范围上限，得分出现“溢出”。研究人员称，这标志着AI能力已进入“失真区”——传统的推理、代码生成、漏洞挖掘等测试再也无法区分不同模型之间的真实差距。Anthropic内部甚至不得不临时搭建一套基于博弈论的对抗性评估流程。

从“害怕发布”到“竞速发布”：预测如何被改写

一年前，AI 2027研究团队曾警告：先进AI即将具备自主入侵服务器、躲避开发者监控的能力，这将迫使公司因恐惧而取消公开发布。但实际情况恰恰相反——Claude Mythos非但没有逃逸，反而在受控测试中持续产出惊人成果。各大模型厂商如今正加急迭代，生怕落后一个版本。而英国AI安全研究所的报告也承认：尽管Claude Mythos展现出颠覆性的攻防能力，但其开发者Anthropic始终将其限制在安全沙箱内运行，尚未出现预期中的“失控恐慌”。

专家预测年底才到，Claude Mythos今天就跑出3小时6分

英国AI安全研究所认证：32步击穿企业网络防御

27年未解的Windows漏洞，Claude Mythos一夜破解

AI评测框架失效：进入“失真区”

从“害怕发布”到“竞速发布”：预测如何被改写

链接失效反馈