研究员测试 AI 漏洞挑战:GPT 5.5 成功率最高、Deepseek V4 Pro 成本最低

GPT-5.5在漏洞挑战中拔得头筹

根据最新的AI漏洞修复基准测试,GPT-5.5在Terminal-Bench 2.0全链路Agent工程测试中斩获82.7%的得分,大幅领先Claude Opus 4.7的69.4%和DeepSeek V4-Pro的67.9%。在SWE-bench Verified和LiveCodeBench等标准漏洞修复基准上,GPT-5.5同样表现优异,成功率高居榜首。研究员指出,GPT-5.5凭借强大的智能体编程能力,能够自主完成端到端全流程编程任务,从零实现复杂项目,成为漏洞挑战中最可靠的模型。

DeepSeek V4 Pro以极致性价比突围

尽管在绝对性能上略逊于GPT-5.5,DeepSeek V4 Pro在成本侧展现出碾压级优势。其每百万输出Tokens成本仅为3.48美元,而GPT-5.5则高达30美元,差距接近9倍。在限时折扣期间,DeepSeek V4-Pro的百万Tokens输出价格更降至6元人民币(约0.83美元),极大降低了规模化测试门槛。研究员表示,对于预算有限的团队,DeepSeek V4 Pro是进行大规模漏洞扫描和修复的理想选择。

研究员测试 AI 漏洞挑战:GPT 5.5 成功率最高、Deepseek V4 Pro 成本最低

价格悬殊背后的性能取舍

性能对照表显示,DeepSeek V4-Pro在标准推理基准上优于GPT-5.2和Gemini 3.0 Pro,但较GPT-5.4和Gemini 3.1 Pro落后约3-6个月。在SWE-bench Verified和LiveCodeBench等编码测试中,V4-Pro与GPT-5.5性能相当甚至更优,但在复杂的代理型计算机使用基准如Terminal-Bench 2.0上差距明显。这意味着在简单漏洞修复场景中,DeepSeek V4 Pro足以胜任,但在需要高度自主规划和多工具调用的复杂漏洞挑战中,GPT-5.5仍是首选。

市场反应与限时抢购潮

DeepSeek V4系列上线后,官方推出2.5折限时折扣,直接引爆市场。数据显示,调价后DeepSeek V4-Pro单日Token调用量环比暴增近四倍,4月25日达136亿Token。阿里云百炼平台同步首发该模型,百万Tokens输入最低仅需1元。研究员分析称,这种“性能不差、成本极低”的策略正在重塑AI漏洞测试工具的市场格局,迫使其他厂商重新考虑定价。

研究员建议:按需选择

综合测试结果,研究员给出明确建议:若追求最高漏洞修复成功率和自动代理能力,GPT-5.5是不可替代的选择,尤其适合企业级关键系统。若预算敏感且场景不特别复杂,DeepSeek V4 Pro能以十分之一成本完成大部分任务,是性价比之选。此外,DeepSeek的开放权重和本地部署能力也为安全敏感团队提供了更多灵活性。