华裔领衔神秘小队,护航Anthropic“玻璃之翼”
项目背景与Anthropic的安全考量
Anthropic最新研发的AI模型Claude Mythos Preview展现出极强的网络安全能力,以至于公司决定不向公众发布该模型。这一决定源于对其潜在风险的深刻认识——如果落入恶意攻击者之手,可能会对全球经济和公共安全造成严重威胁。
为了避免此类风险,Anthropic推出了“玻璃之翼项目(Project Glasswing)”,通过该计划将Claude Mythos Preview提供给关键行业合作伙伴和开源开发者,确保网络安全防御者能够优先掌握其能力,从而更好地准备应对未来可能出现的AI驱动攻击。
前沿红队的职责与组成
Anthropic内部设立了一个名为“前沿红队(Frontier Red Team)”的精英团队,负责对新模型进行全方位的安全测试。红队的任务是模拟攻击者行为,主动挑战模型,以发现潜在漏洞或滥用风险。
- 组织架构:
- 网络安全(Cyber)
- 生物安全(Biosecurity/Biorisk)
- 自主系统(Autonomous Systems)
Newton Cheng作为网络安全团队的负责人,正是在这次Claude Mythos Preview的评估中发挥了关键作用。他曾在2024年被《华尔街日报》报道担任该职位,并在公司系统卡(系统安全说明文档)中多次被提及,成为此次项目的核心人物之一。
Mythos Preview的能力测试与安全评级
为了评估新模型的能力,前沿红队设计了一系列高难度的测试任务,包括CTF(夺旗赛)挑战、CyberGym基准测试以及真实软件项目的漏洞挖掘任务。
- CTF测试:Claude Mythos Preview在夺旗挑战中表现出色,许多题目准确率达到100%。
- CyberGym测试:在模拟真实环境中查找开源项目漏洞的任务中,Mythos Preview得分为0.83,远超Claude Opus和Sonnet的0.67与0.65。
- Firefox漏洞任务:在与Mozilla合作中,Mythos Preview成功利用多个漏洞实现了代码执行。
这些测试结果让Anthropic对模型的能力感到震撼,同时也促使其对模型安全等级(ASL)进行了评估。若模型达到ASL3——即“显著增加灾难性误用风险”的级别,公司会推迟发布,直到防护机制完善。而Claude Mythos Preview正是由于触及这一边界,才被限制公开发布。
Project Glasswing的运作机制与目标
Glasswing项目的核心目标是将Claude Mythos Preview的高级网络安全能力,首先提供给需要进行网络防御的组织与开发者,包括:
- 关键基础设施维护机构
- 开源项目团队
- 防御性AI工具研发者
通过这一项目,Anthropic希望为全球网络安全生态建立一道“先手防线”,帮助防御者理解AI在攻击中的潜力,并提前部署应对策略。
Newton Cheng的团队主导了多个此类合作,包括与Mozilla的Firefox漏洞识别与修复任务。他们不仅在内部进行测试,还积极将模型的能力转化为可被行业使用的防御工具,推动网络安全领域的AI协作新模式。
系统卡与透明安全披露
Anthropic每次发布模型,都会附带一份详尽的“系统卡(System Card)”,记录模型能力、安全评估、风险门槛、部署理由等关键信息。
- Claude Mythos Preview的系统卡长达299页,其中“网络安全”章节详细记录了前沿红队的测试成果。
- 相较之下,其他公司的类似文档(如xAI的Grok 4模型卡)内容较为简略,仅8页。
这种透明度不仅体现了Anthropic在安全方面的责任感,也展示了他们对AI模型风险控制的系统性思考。通过系统卡,外部开发者和安全团队可以更好地了解模型的能力边界,为未来的合作和防御提供技术依据。
红队测试的现实意义
- 检测模型在真实世界中的攻击潜力
- 识别AI驱动的安全威胁趋势
- 提前制定缓解策略和防护机制
Newton Cheng和其团队正是通过这些测试,推动Anthropic将模型的潜在威胁转化为防御工具。这也让“玻璃之翼项目”不仅是技术上的创新,更是一种在AI伦理与安全层面的前瞻性部署。
未来展望与行业影响
Claude Mythos Preview的出现标志着AI模型在网络安全方面的能力已经迈入新阶段。Anthropic通过“玻璃之翼项目”展现出其在AI安全部署上的新思路:在模型发布前,优先将其能力用于增强防御体系。
- 这一策略可能会成为行业新标准
- 激发更多机构关注AI模型的潜在滥用
- 推动AI与网络安全的深度融合
Newton Cheng作为这一计划的技术领导者,代表了新一代AI安全专家的崛起:他们并非传统网络安全出身,而是从基础科学与AI研究中成长,将模型训练、测试与防护结合得更加紧密。随着Glasswing项目的推进,AI在网络安全中的“守”与“攻”将进入更复杂的博弈阶段。