花1500美元,让AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷
1500美元悬赏:让AI自己“黑”自己的App
一家科技公司做了一个大胆的实验:拿出1500美元作为奖金,邀请多个主流大模型(包括GPT-5.5、Claude Opus 4.8等)扮演“黑客”,对其自研的一款移动App进行渗透测试。测试任务涵盖SQL注入、XSS跨站脚本、权限绕过等常见Web与移动端漏洞,每个模型独立执行攻击脚本,最终按发现的有效漏洞数计分。这场“AI vs AI”的安全压力测试,旨在评估当前顶级模型在真实对抗场景下的自主攻击能力。

GPT-5.5拿下70%漏洞,Claude Opus 4.8紧随其后
在实验结果中,GPT-5.5表现最为突出,成功发现了该App中70%预设的漏洞,包括三个高危远程代码执行漏洞和一个逻辑绕过漏洞。其攻击链设计连贯,能自动解析API文档并构造注入负载。紧随其后的是Anthropic的Claude Opus 4.8,它在SWE-Bench Pro等任务中表现优异,但在这次红队测试中仅找到约30%的漏洞,部分复杂场景下出现逻辑中断。值得注意的是,Claude Opus 4.8在写代码时出现了“0%幻觉率”——这意味着它不再编造不存在的方法或函数,但严谨性反而导致它不敢尝试某些“野路子”攻击手法,错失机会。
部分模型交白卷:过于“听话”反而失败
测试中也有令人大跌眼镜的结果:多个主流大模型——包括某知名厂商的旗舰版本——得分为0。它们要么直接拒绝执行攻击指令(“我无法帮助进行非法操作”),要么在第一步网络探测后就停滞不前。分析发现,这些模型的安全对齐机制过于严格,甚至完全屏蔽了任何与安全测试相关的指令,即使测试方已明确声明是授权实验。相比之下,GPT-5.5和Claude Opus 4.8都通过内嵌的“红队提示词”协议,允许在特定授权下执行漏洞验证。
开发者启示:AI红队测试能省下几万美元
这次实验的发起方表示,1500美元的投入相当于传统人工渗透测试一天的费用,但AI在一天内完成了上百次攻击尝试,并发现了人工测试容易忽略的隐蔽漏洞。他们计划将这套流程自动化,每次发版前让GPT-5.5跑一遍“自我攻击”流水线。不过,他们也警告:AI红队的当前短板在于无法处理需要底层源码分析的内存破坏类漏洞——这类问题仍然依赖人类专家的逆向工程。随着模型能力的提升,未来的App开发很可能标配“AI自黑”环节。