OpenAI祭出GPT-5.4神装,Codex同款Harness全面开放

背景:OpenAI在AI竞争中的战略升级

OpenAI在2026年AI竞赛愈演愈烈的背景下,推出GPT-5.4作为对竞品如Claude Opus 4.6、Gemini 3.1 Pro的强力反击。此前,GPT-5.2在多项任务中表现稳定,但在复杂推理、浏览器交互和办公自动化方面被Claude等模型超越。为扭转局势,OpenAI在GPT-5.4中整合了原生计算机操作能力,并强化了编程、视觉理解、工具调用等维度,打造了一个真正具备工业级Agent能力的模型。

  • GPT-5.4的发布标志着从“聊天”向“执行”的转变。
  • OpenAI强调模型在多任务处理中无短板,全面超越旧代产品。

GPT-5.4核心功能解析

GPT-5.4引入了多项突破性功能,使其在推理、编程、视觉感知和工具使用上达到了新的高度。

原生计算机操作能力

  • GPT-5.4是首个具备原生电脑操控能力的通用模型。
  • 可通过Playwright等库编写代码来操作浏览器、点击按钮、填写表单、上传文件等。
  • 在OSWorld-Verified基准测试中,GPT-5.4取得75.0%的成功率,远超Claude Opus 4.6的72.7%。

强大的上下文与工具调用能力

  • 支持高达100万token的上下文长度,满足长时间任务的规划需求。
  • 引入“工具搜索”功能,自动识别和调用合适的工具,减少冗余调用。
  • 在Toolathlon测试中,GPT-5.4的准确率达到54.6%,显著优于GPT-5.3-Codex(51.9%)和GPT-5.2(45.7%)。

视觉感知与图像处理能力

  • 在MMMU-Pro测试中,GPT-5.4(不使用工具)达到81.2%准确率,优于GPT-5.2的79.5%。
  • 首次引入图像输入的“原始”和“高”细节级别:
    • 原始级别:支持最高1024万总像素,或单边6000像素。
    • 高级别:支持最高256万总像素,或单边2048像素。
  • 在WebArena-Verified中,GPT-5.4结合DOM和截图交互,成功率67.3%,优于GPT-5.2的65.4%。

性能与效率:速度更快、成本更低

OpenAI在GPT-5.4中进一步优化了推理效率,使其成为Token使用效率最高的模型之一。

  • 在同等任务下,GPT-5.4使用的Token比GPT-5.2大幅减少。
  • 推理强度设为None时,延迟低于GPT-5.3-Codex。
  • Codex的/fast模式下,生成速度提升1.5倍。
  • 开发者可通过“优先处理”(Priority Processing)获得更快速响应。
  • 在Scale的MCP Atlas基准测试中,工具搜索配置减少47%的Token使用量,保持准确率不变。

知识工作的实际应用表现

GPT-5.4在模拟真实办公场景中的表现令人瞩目,已在多个领域展示出接近甚至超越专业人士的能力。

  • 在GDPval测试中,GPT-5.4得分83.0%,远超GPT-5.2的70.9%。
  • 覆盖9大美国GDP贡献产业,涉及44种职业任务,如:
    • 销售演示文稿
    • 会计电子表格
    • 急诊排班表
    • 制造图表
    • 短视频内容生成
  • 在模拟初级投资银行分析师测试中,GPT-5.4得分87.3%,GPT-5.2仅为68.4%。
  • 用户调查显示,GPT-5.4生成的PPT在美观度、视觉表现和图像使用上更受欢迎。

开发者生态与产品融合

OpenAI不仅强化了模型能力,还进一步整合开发者工具与产品生态,推动智能体落地。

  • Codex与GPT-5.4完全融合,开发者无需切换模型即可完成推理与编程。
  • SWE-Bench Pro测试中,GPT-5.4准确率为57.7%,略高于GPT-5.3-Codex(56.8%)。
  • 推出了多个实验性“Playwright Interactive”技能:
    • 自动化网页应用构建与调试
    • UI验证与数据检查
    • 游戏开发与界面优化(回合制RPG、虚拟游乐园建造等)
  • ChatGPT中已上线GPT-5.4 Thinking与Pro版本,Enterprise客户可使用专属插件如“ChatGPT for Excel”与“Google Sheets”。

影响与未来展望

GPT-5.4的发布不仅是一次技术升级,更是对AI未来应用场景的一次重新定义。

  • 知识工作者面临效率革命:从撰写报告到制作PPT、排班表,AI正在替代初级办公任务。
  • 开发者工具链全面进化:从编程、测试到部署、调试,实现一体化AI辅助。
  • 模型成本上升但仍具竞争力:
    • GPT-5.4输入价格:2.5美元/百万token
    • 输出价格:15美元/百万token
    • Pro版本输入:30美元/百万token,输出:180美元/百万token
  • 企业级用户将获得更强的定制能力,如Excel插件、多轮搜索优化、实时调整流程等。

OpenAI通过GPT-5.4再次巩固了其在通用AI领域的领导地位,标志着AI从“感知-理解”迈入“规划-执行”的新时代。