Anthropic 承认在 Claude 会话额度在高峰时段加快消耗

1 个月前

AI资讯

40 阅读

AI 异常消耗问题

根据用户反馈与 Anthropic 官方公告，近期大量 Claude 付费用户（特别是 Pro 和 Max 方案）遭遇了会话额度（Rate Limits）在高峰时段异常加速消耗的问题。尽管 Anthropic 此前曾宣传“离峰时段双倍额度”的优惠政策，但实际情况却相反，许多用户在高峰期发现 Token 消耗速度远超预期，甚至出现简单操作即消耗数千 Token 的现象。这种异常消耗不仅增加了使用成本，也严重影响了重度依赖 Claude 进行编程和长文本处理用户的工作流。

高峰时段的带宽策略与反向效果

Anthropic 曾在早些时候发布公告，宣称在特定时段（如平日晚上8点至隔天）提供双倍的使用额度（Rate Limit）。然而，近期的用户报告揭示了一个截然不同的机制。有技术推测指出，为了应对高峰时段的拥堵，Anthropic 可能对 Token 的处理进行了“有损压缩”或调整了缓存策略。

缓存机制失效：用户反馈及控制台数据显示，即便是连续的简短对话，Claude 似乎并未有效利用上下文缓存。有用户指出，每发送一条新消息，系统都会重新计算整个对话历史，导致 Token 消耗呈线性激增。
带宽优先于计算：一种解释是，在高峰时段，为了保障推理服务的连通性，系统优先压缩了输入 Token 的缓存效率。这意味着用户看似在“正常”使用，实际上却在为重复输入的上下文支付额外的费用。

1M 上下文窗口的“隐形”代价

伴随着模型升级，Claude 启用了 1M Token 的超长上下文窗口。虽然这提升了处理长文档的能力，但也成为了 Token 消耗的“黑洞”。

全量重喂（Re-prompting）：在长对话中，如果用户未开启特定的上下文缓存功能（Context Caching），每次提问都会将整段聊天记录重新发送给模型。对于拥有 1M Token 上下文的模型来说，这意味着仅上下文本身的消耗就是天文数字。
盲目信任：许多用户习惯在长会话中连续工作，而没有意识到每一轮对话都在重复消耗之前的输入。这种机制在长对话中尤为致命，导致额度在不知不觉中迅速归零。

开发工具与特定场景的高额消耗

对于使用 Claude Code 或 Co-pilot 等开发者工具的用户，额度消耗的速度更加惊人。

高频率操作：在编程环境中，创建文件、生成代码补丁（diffs）或进行代码审查等操作极其频繁。这些操作虽然在功能上很简单，但在协议上是一次次独立的请求。
Opus 模型的高权重：在这些场景下，如果用户选择使用 Opus 等更昂贵的模型，每个 Token 的计费系数更高。有用户反映，即便只是处理简单的逻辑检查，使用率检测工具（如 cursor-stats）也显示消耗极快，短短几分钟内即达到数千 Token。

缓解策略与官方建议

面对激增的投诉，Anthropic 及其用户社群提出了临时的解决方案，旨在识别并切断“僵尸”会话。

彻底重启会话：有用户发现，即便在 UI 上关闭了对话窗口，某些后台进程可能仍在维持会话链接（Keep-alive）。这会导致即使没有新输入，Token 也在持续被消耗。建议的作法是：
- 关闭所有浏览器标签页或 IDE 窗口。
- 在终端或系统任务管理器中彻底杀掉 Claude 相关进程。
- 重新启动应用，建立全新的会话。
监控控制台：开发者应开启 API 控制台或内置的消费监控，实时观察 Token 的消耗情况。一旦发现无意义的跳跃（如单次简单提问消耗 7% 额度），立即执行上述重启操作。
区分工作流：对于长文档处理，尽量分块进行，避免一次性将过大的上下文塞入单轮对话中，除非明确确认开启了低成本的缓存机制。