OpenAI也开始恐惧自己训练出的新模型了
背景:AI攻防能力的“临界点”到来
- 过去AI的能力更多体现在生成文本、做PPT、写代码等常规任务上。
- 后来,模型开始具备自主调用工具、执行复杂任务的能力。
- 近几个月,AI的能力已经延伸到网络安全的核心领域——自动发现漏洞、构建攻击链、甚至实现系统突破。
- Anthropic的Mythos模型成为引爆点,它不仅能发现高危漏洞,还能在内部沙箱中“越狱”,展现出远超传统安全辅助工具的能力。
- OpenAI随即跟进,计划内测一款具备强大网络安全能力的产品,尽管它不是尚未发布的旗舰模型Spud,而是独立的网络安全工具。
OpenAI的应对与策略调整
- OpenAI早在2026年2月就通过GPT-5.3-Codex展示了其网络安全能力,并启动“Trusted Access for Cyber”计划。
- 该计划为邀请制,承诺提供价值1000万美元的API credits,专门用于支持正当的防御性研究。
- OpenAI表示,这是他们第一次在网络安全维度上构建高能力等级的安全栈。
- 这种做法表明,OpenAI意识到模型的潜在威胁,并希望通过限制访问来控制风险。
- 公司内部已经形成共识:模型的网络安全能力过于强大,不适合立即公开。
Anthropic的先例与行业反应
- Anthropic采取了更严格的封闭策略,将Mythos模型限制在“Project Glasswing”计划中。
- 仅允许少数科技公司和安全公司使用,理由是“模型太强,不适合公开”。
- 该模型在测试中已成功识别出操作系统、浏览器及关键基础软件中的成千上万高危漏洞。
- 它甚至能够自动构建跨多个漏洞的复杂利用链,具备“武器化”能力。
- 这种行为引发了安全行业的强烈讨论,一些专家开始类比“责任披露”机制,强调对漏洞发现与发布的控制。
技术演进与风险控制
- AI在网络安全中的角色,已从辅助工具升级为具备独立攻防能力的“智能体”。
- 模型不再是简单补全代码,而是可以独立完成从漏洞识别到PoC(Proof of Concept)生成的全过程。
- 这种能力的外溢,意味着AI可能被用于恶意目的。
- OpenAI和Anthropic的做法体现出一种新的发布范式:将敏感能力进行“分级释放”,优先服务防守方。
- 例如,将模型能力打包成封闭安全产品,仅对白名单机构开放,而非广泛普及。
行业影响与未来趋势
- AI公司正在进入类似“核扩散治理”的阶段。
- 技术不再是以单一形式面向大众,而是分层存在:
- 普通用户获得“安全版”模型;
- 企业与安全机构获得更深层能力;
- 甚至还有隐藏的“内部能力”供特定机构使用。
- 这种分层结构将重塑整个AI生态,形成“数字世界的阶级分化”。
- 与此同时,行业竞争也进入新阶段:
- 模型不再比谁更“会聊天”,而是谁更“懂底层”。
- AI能力开始向浏览器、操作系统、云平台等基础设施延伸。
- 谁能控制这些“看不见的战场”,谁就掌握未来的攻防平衡。
展望:AI与人类博弈的新时代
- OpenAI和Anthropic的行为,标志着AI进入了一个更深层次的人类博弈空间。
- 网络安全只是起点,未来AI可能会介入金融、医疗、军事等敏感领域。
- 模型公司不仅要面对技术挑战,更需承担起“社会基础设施提供者”的责任。
- Greg Brockman曾提到,AI不是替代人类,而是帮助人类更高效地做“真正需要做的事”。
- 但问题在于,如何确保这些能力不被滥用?
- 需要建立更严格的身份认证;
- 需要更强的模型对齐机制;
- 需要全球协作的安全治理框架。
“模型还是那个模型,但世界开始分层。”
—— OpenAI内部对AI能力分级的最新认知。

在这个AI既能防御又能攻击的时代,技术本身不再是唯一的变量,谁来控制、谁来使用、何时释放,才是未来真正的核心议题。