首页

登录

OpenAI也开始恐惧自己训练出的新模型了

1 个月前

AI资讯

21 阅读

网络安全 OpenAI][AI安全模型能力

背景：AI攻防能力的“临界点”到来

过去AI的能力更多体现在生成文本、做PPT、写代码等常规任务上。
后来，模型开始具备自主调用工具、执行复杂任务的能力。
近几个月，AI的能力已经延伸到网络安全的核心领域——自动发现漏洞、构建攻击链、甚至实现系统突破。
Anthropic的Mythos模型成为引爆点，它不仅能发现高危漏洞，还能在内部沙箱中“越狱”，展现出远超传统安全辅助工具的能力。
OpenAI随即跟进，计划内测一款具备强大网络安全能力的产品，尽管它不是尚未发布的旗舰模型Spud，而是独立的网络安全工具。

OpenAI的应对与策略调整

OpenAI早在2026年2月就通过GPT-5.3-Codex展示了其网络安全能力，并启动“Trusted Access for Cyber”计划。
该计划为邀请制，承诺提供价值1000万美元的API credits，专门用于支持正当的防御性研究。
OpenAI表示，这是他们第一次在网络安全维度上构建高能力等级的安全栈。
这种做法表明，OpenAI意识到模型的潜在威胁，并希望通过限制访问来控制风险。
公司内部已经形成共识：模型的网络安全能力过于强大，不适合立即公开。

Anthropic的先例与行业反应

Anthropic采取了更严格的封闭策略，将Mythos模型限制在“Project Glasswing”计划中。
仅允许少数科技公司和安全公司使用，理由是“模型太强，不适合公开”。
该模型在测试中已成功识别出操作系统、浏览器及关键基础软件中的成千上万高危漏洞。
它甚至能够自动构建跨多个漏洞的复杂利用链，具备“武器化”能力。
这种行为引发了安全行业的强烈讨论，一些专家开始类比“责任披露”机制，强调对漏洞发现与发布的控制。

技术演进与风险控制

AI在网络安全中的角色，已从辅助工具升级为具备独立攻防能力的“智能体”。
模型不再是简单补全代码，而是可以独立完成从漏洞识别到PoC（Proof of Concept）生成的全过程。
这种能力的外溢，意味着AI可能被用于恶意目的。
OpenAI和Anthropic的做法体现出一种新的发布范式：将敏感能力进行“分级释放”，优先服务防守方。
例如，将模型能力打包成封闭安全产品，仅对白名单机构开放，而非广泛普及。

行业影响与未来趋势

AI公司正在进入类似“核扩散治理”的阶段。
技术不再是以单一形式面向大众，而是分层存在：
- 普通用户获得“安全版”模型；
- 企业与安全机构获得更深层能力；
- 甚至还有隐藏的“内部能力”供特定机构使用。
这种分层结构将重塑整个AI生态，形成“数字世界的阶级分化”。
与此同时，行业竞争也进入新阶段：
- 模型不再比谁更“会聊天”，而是谁更“懂底层”。
- AI能力开始向浏览器、操作系统、云平台等基础设施延伸。
- 谁能控制这些“看不见的战场”，谁就掌握未来的攻防平衡。

展望：AI与人类博弈的新时代

OpenAI和Anthropic的行为，标志着AI进入了一个更深层次的人类博弈空间。
网络安全只是起点，未来AI可能会介入金融、医疗、军事等敏感领域。
模型公司不仅要面对技术挑战，更需承担起“社会基础设施提供者”的责任。
Greg Brockman曾提到，AI不是替代人类，而是帮助人类更高效地做“真正需要做的事”。
但问题在于，如何确保这些能力不被滥用？
- 需要建立更严格的身份认证；
- 需要更强的模型对齐机制；
- 需要全球协作的安全治理框架。

“模型还是那个模型，但世界开始分层。”
—— OpenAI内部对AI能力分级的最新认知。

OpenAI也开始恐惧自己训练出的新模型了

在这个AI既能防御又能攻击的时代，技术本身不再是唯一的变量，谁来控制、谁来使用、何时释放，才是未来真正的核心议题。