OpenAI 确认 ChatGPT 与 API 昨日出现高延迟，现已修复

1 个月前

AI资讯

58 阅读

ChatGPT API [openai 高延迟]

延迟警报：TTFT 指标飙升触发排查

昨日，OpenAI 服务健康状态仪表板突然显示 ChatGPT 与 API 出现明显延迟。根据官方提供的排查流程，团队立即重点关注 Time to First Token (TTFT) 这一核心指标——该指标在 Priority 和 Scale 层级具有明确的 SLA 保障。通过放大至分钟级分辨率，工程师发现 P95 百分位数的 TTFT 较基线攀升超过 3 倍，直接导致用户端的响应卡顿。与此同时，HTTP Requests 视图中的 5xx 错误率并未同步上升，说明问题并非来自服务器崩溃，而是单纯的响应缓慢。

用量仪表板揭示“幕后推手”

在锁定延迟问题后，团队转向用量仪表板进行因果分析。关键发现包括：

每次请求的平均输出 Token 数在特定时间段内突然增加，尤其是 Chat Completions 端点的输出长度明显超出了用户历史基准。
流量在不同服务层级之间发生转移：部分 Standard 层级的突发请求被错误路由至 Priority 和 Scale 层级，导致付费层级的资源被“稀释”，从而拖慢了原本拥有 SLA 保障的快速通道。
进一步下载活动数据后发现，推理用量在该时段出现短期尖峰，与一例异常的批量生成任务高度吻合。

混合层级的“隐形摩擦”被锁定

工程师依据服务状态仪表板中的 Request Time 和 TTFT 百分位数，最终将问题定位到 Priority 和 Scale 层级之间的混合流量。参考官方文档中的常见排查场景——“Priority 或 Scale 层级看起来很慢，可能原因是指标混合了不同层级（即 Standard 流量掩盖了付费层级效能）”——团队确认，正是由于 Standard 层级的突发请求未被正确隔离，导致付费用户的请求被阻塞在队列中。通过按项目和服务层级重新筛选仪表板数据，他们清楚地看到 Priority 层级的 P99 延迟一度突破 10 秒。

紧急修复：调整流量调度与 Token 限制

发现问题后，OpenAI 迅速执行了以下修复措施：

重分配流量规则：强制将不同服务层级的请求分离，确保 Priority 和 Scale 层级拥有独立的计算资源池。
临时限制最大输出 Token 数：针对异常的高 Token 消耗请求设置上限，防止单个任务阻塞系统。
刷新缓存与连接池：清理过期缓存数据，并按官方建议重置 API 客户端连接。
据官方状态页面更新，修复操作完成后约 30 分钟，所有延迟指标回落至正常范围，ChatGPT 及 API 响应速度恢复至历史平均水平。

用户自查：如何利用官方仪表板避免再次中招

此次事件再次印证了 OpenAI 官方排查指南的价值。对于遇到类似延迟的用户，建议直接查看以下路径：

前往 服务健康状态仪表板，检查 TTFT 和 Request Time 的 P50/P75/P95 百分位数。
在 HTTP Requests 视图中按模型（如 gpt-4o）、服务层级（Priority/Scale）和项目筛选，排除 Standard 层级干扰。
导出活动数据，检查每次请求的输入/输出 Token 数，揪出异常占用资源的任务。
记住：服务状态告诉“何时”改变，而用量数据解释“为什么”改变。两者结合使用，才能像 OpenAI 团队一样快速定位延迟根源。