Anthropic 承认在 Claude 会话额度在高峰时段加快消耗

7 天前
9 阅读

根据用户反馈与 Anthropic 官方公告,近期大量 Claude 付费用户(特别是 Pro 和 Max 方案)遭遇了会话额度(Rate Limits)在高峰时段异常加速消耗的问题。尽管 Anthropic 此前曾宣传“离峰时段双倍额度”的优惠政策,但实际情况却相反,许多用户在高峰期发现 Token 消耗速度远超预期,甚至出现简单操作即消耗数千 Token 的现象。这种异常消耗不仅增加了使用成本,也严重影响了重度依赖 Claude 进行编程和长文本处理用户的工作流。

高峰时段的带宽策略与反向效果

Anthropic 曾在早些时候发布公告,宣称在特定时段(如平日晚上8点至隔天)提供双倍的使用额度(Rate Limit)。然而,近期的用户报告揭示了一个截然不同的机制。有技术推测指出,为了应对高峰时段的拥堵,Anthropic 可能对 Token 的处理进行了“有损压缩”或调整了缓存策略。

  • 缓存机制失效:用户反馈及控制台数据显示,即便是连续的简短对话,Claude 似乎并未有效利用上下文缓存。有用户指出,每发送一条新消息,系统都会重新计算整个对话历史,导致 Token 消耗呈线性激增。
  • 带宽优先于计算:一种解释是,在高峰时段,为了保障推理服务的连通性,系统优先压缩了输入 Token 的缓存效率。这意味着用户看似在“正常”使用,实际上却在为重复输入的上下文支付额外的费用。

1M 上下文窗口的“隐形”代价

伴随着模型升级,Claude 启用了 1M Token 的超长上下文窗口。虽然这提升了处理长文档的能力,但也成为了 Token 消耗的“黑洞”。

  • 全量重喂(Re-prompting):在长对话中,如果用户未开启特定的上下文缓存功能(Context Caching),每次提问都会将整段聊天记录重新发送给模型。对于拥有 1M Token 上下文的模型来说,这意味着仅上下文本身的消耗就是天文数字。
  • 盲目信任:许多用户习惯在长会话中连续工作,而没有意识到每一轮对话都在重复消耗之前的输入。这种机制在长对话中尤为致命,导致额度在不知不觉中迅速归零。

开发工具与特定场景的高额消耗

对于使用 Claude Code 或 Co-pilot 等开发者工具的用户,额度消耗的速度更加惊人。

  • 高频率操作:在编程环境中,创建文件、生成代码补丁(diffs)或进行代码审查等操作极其频繁。这些操作虽然在功能上很简单,但在协议上是一次次独立的请求。
  • Opus 模型的高权重:在这些场景下,如果用户选择使用 Opus 等更昂贵的模型,每个 Token 的计费系数更高。有用户反映,即便只是处理简单的逻辑检查,使用率检测工具(如 cursor-stats)也显示消耗极快,短短几分钟内即达到数千 Token。

缓解策略与官方建议

面对激增的投诉,Anthropic 及其用户社群提出了临时的解决方案,旨在识别并切断“僵尸”会话。

  1. 彻底重启会话:有用户发现,即便在 UI 上关闭了对话窗口,某些后台进程可能仍在维持会话链接(Keep-alive)。这会导致即使没有新输入,Token 也在持续被消耗。建议的作法是:
    • 关闭所有浏览器标签页或 IDE 窗口。
    • 在终端或系统任务管理器中彻底杀掉 Claude 相关进程。
    • 重新启动应用,建立全新的会话。
  2. 监控控制台:开发者应开启 API 控制台或内置的消费监控,实时观察 Token 的消耗情况。一旦发现无意义的跳跃(如单次简单提问消耗 7% 额度),立即执行上述重启操作。
  3. 区分工作流:对于长文档处理,尽量分块进行,避免一次性将过大的上下文塞入单轮对话中,除非明确确认开启了低成本的缓存机制。