华裔领衔神秘小队，护航Anthropic“玻璃之翼”

1 个月前

AI资讯

30 阅读

Anthropic [AI安全网络防御红队行动]

Anthropic最新研发的AI模型Claude Mythos Preview展现出极强的网络安全能力，以至于公司决定不向公众发布该模型。这一决定源于对其潜在风险的深刻认识——如果落入恶意攻击者之手，可能会对全球经济和公共安全造成严重威胁。

为了避免此类风险，Anthropic推出了“玻璃之翼项目（Project Glasswing）”，通过该计划将Claude Mythos Preview提供给关键行业合作伙伴和开源开发者，确保网络安全防御者能够优先掌握其能力，从而更好地准备应对未来可能出现的AI驱动攻击。

Anthropic内部设立了一个名为“前沿红队（Frontier Red Team）”的精英团队，负责对新模型进行全方位的安全测试。红队的任务是模拟攻击者行为，主动挑战模型，以发现潜在漏洞或滥用风险。

组织架构：
- 网络安全（Cyber）
- 生物安全（Biosecurity/Biorisk）
- 自主系统（Autonomous Systems）

Newton Cheng作为网络安全团队的负责人，正是在这次Claude Mythos Preview的评估中发挥了关键作用。他曾在2024年被《华尔街日报》报道担任该职位，并在公司系统卡（系统安全说明文档）中多次被提及，成为此次项目的核心人物之一。

为了评估新模型的能力，前沿红队设计了一系列高难度的测试任务，包括CTF（夺旗赛）挑战、CyberGym基准测试以及真实软件项目的漏洞挖掘任务。

CTF测试：Claude Mythos Preview在夺旗挑战中表现出色，许多题目准确率达到100%。
CyberGym测试：在模拟真实环境中查找开源项目漏洞的任务中，Mythos Preview得分为0.83，远超Claude Opus和Sonnet的0.67与0.65。
Firefox漏洞任务：在与Mozilla合作中，Mythos Preview成功利用多个漏洞实现了代码执行。

这些测试结果让Anthropic对模型的能力感到震撼，同时也促使其对模型安全等级（ASL）进行了评估。若模型达到ASL3——即“显著增加灾难性误用风险”的级别，公司会推迟发布，直到防护机制完善。而Claude Mythos Preview正是由于触及这一边界，才被限制公开发布。