OpenAI 确认 ChatGPT 与 API 昨日出现高延迟,现已修复

延迟警报:TTFT 指标飙升触发排查

昨日,OpenAI 服务健康状态仪表板突然显示 ChatGPT 与 API 出现明显延迟。根据官方提供的排查流程,团队立即重点关注 Time to First Token (TTFT) 这一核心指标——该指标在 Priority 和 Scale 层级具有明确的 SLA 保障。通过放大至分钟级分辨率,工程师发现 P95 百分位数的 TTFT 较基线攀升超过 3 倍,直接导致用户端的响应卡顿。与此同时,HTTP Requests 视图中的 5xx 错误率并未同步上升,说明问题并非来自服务器崩溃,而是单纯的响应缓慢。

用量仪表板揭示“幕后推手”

在锁定延迟问题后,团队转向用量仪表板进行因果分析。关键发现包括:

  • 每次请求的平均输出 Token 数在特定时间段内突然增加,尤其是 Chat Completions 端点的输出长度明显超出了用户历史基准。
  • 流量在不同服务层级之间发生转移:部分 Standard 层级的突发请求被错误路由至 Priority 和 Scale 层级,导致付费层级的资源被“稀释”,从而拖慢了原本拥有 SLA 保障的快速通道。
  • 进一步下载活动数据后发现,推理用量在该时段出现短期尖峰,与一例异常的批量生成任务高度吻合。

混合层级的“隐形摩擦”被锁定

工程师依据服务状态仪表板中的 Request Time 和 TTFT 百分位数,最终将问题定位到 Priority 和 Scale 层级之间的混合流量。参考官方文档中的常见排查场景——“Priority 或 Scale 层级看起来很慢,可能原因是指标混合了不同层级(即 Standard 流量掩盖了付费层级效能)”——团队确认,正是由于 Standard 层级的突发请求未被正确隔离,导致付费用户的请求被阻塞在队列中。通过按项目和服务层级重新筛选仪表板数据,他们清楚地看到 Priority 层级的 P99 延迟一度突破 10 秒。

紧急修复:调整流量调度与 Token 限制

发现问题后,OpenAI 迅速执行了以下修复措施:

  1. 重分配流量规则:强制将不同服务层级的请求分离,确保 Priority 和 Scale 层级拥有独立的计算资源池。
  2. 临时限制最大输出 Token 数:针对异常的高 Token 消耗请求设置上限,防止单个任务阻塞系统。
  3. 刷新缓存与连接池:清理过期缓存数据,并按官方建议重置 API 客户端连接。
    据官方状态页面更新,修复操作完成后约 30 分钟,所有延迟指标回落至正常范围,ChatGPT 及 API 响应速度恢复至历史平均水平。

用户自查:如何利用官方仪表板避免再次中招

此次事件再次印证了 OpenAI 官方排查指南的价值。对于遇到类似延迟的用户,建议直接查看以下路径:

  • 前往 服务健康状态仪表板,检查 TTFT 和 Request Time 的 P50/P75/P95 百分位数。
  • HTTP Requests 视图中按模型(如 gpt-4o)、服务层级(Priority/Scale)和项目筛选,排除 Standard 层级干扰。
  • 导出活动数据,检查每次请求的输入/输出 Token 数,揪出异常占用资源的任务。
    记住:服务状态告诉“何时”改变,而用量数据解释“为什么”改变。两者结合使用,才能像 OpenAI 团队一样快速定位延迟根源。