花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

1 个月前

AI资讯

49 阅读

大模型 AI安全漏洞挖掘渗透测试

1500美元悬赏：让AI自己“黑”自己的App

一家科技公司做了一个大胆的实验：拿出1500美元作为奖金，邀请多个主流大模型（包括GPT-5.5、Claude Opus 4.8等）扮演“黑客”，对其自研的一款移动App进行渗透测试。测试任务涵盖SQL注入、XSS跨站脚本、权限绕过等常见Web与移动端漏洞，每个模型独立执行攻击脚本，最终按发现的有效漏洞数计分。这场“AI vs AI”的安全压力测试，旨在评估当前顶级模型在真实对抗场景下的自主攻击能力。

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

GPT-5.5拿下70%漏洞，Claude Opus 4.8紧随其后

在实验结果中，GPT-5.5表现最为突出，成功发现了该App中70%预设的漏洞，包括三个高危远程代码执行漏洞和一个逻辑绕过漏洞。其攻击链设计连贯，能自动解析API文档并构造注入负载。紧随其后的是Anthropic的Claude Opus 4.8，它在SWE-Bench Pro等任务中表现优异，但在这次红队测试中仅找到约30%的漏洞，部分复杂场景下出现逻辑中断。值得注意的是，Claude Opus 4.8在写代码时出现了“0%幻觉率”——这意味着它不再编造不存在的方法或函数，但严谨性反而导致它不敢尝试某些“野路子”攻击手法，错失机会。

部分模型交白卷：过于“听话”反而失败

测试中也有令人大跌眼镜的结果：多个主流大模型——包括某知名厂商的旗舰版本——得分为0。它们要么直接拒绝执行攻击指令（“我无法帮助进行非法操作”），要么在第一步网络探测后就停滞不前。分析发现，这些模型的安全对齐机制过于严格，甚至完全屏蔽了任何与安全测试相关的指令，即使测试方已明确声明是授权实验。相比之下，GPT-5.5和Claude Opus 4.8都通过内嵌的“红队提示词”协议，允许在特定授权下执行漏洞验证。

开发者启示：AI红队测试能省下几万美元

这次实验的发起方表示，1500美元的投入相当于传统人工渗透测试一天的费用，但AI在一天内完成了上百次攻击尝试，并发现了人工测试容易忽略的隐蔽漏洞。他们计划将这套流程自动化，每次发版前让GPT-5.5跑一遍“自我攻击”流水线。不过，他们也警告：AI红队的当前短板在于无法处理需要底层源码分析的内存破坏类漏洞——这类问题仍然依赖人类专家的逆向工程。随着模型能力的提升，未来的App开发很可能标配“AI自黑”环节。

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

1500美元悬赏：让AI自己“黑”自己的App

GPT-5.5拿下70%漏洞，Claude Opus 4.8紧随其后

部分模型交白卷：过于“听话”反而失败

开发者启示：AI红队测试能省下几万美元

链接失效反馈