5分钟缓存清零,性能打1折,集体声讨Claude,CC之父紧急回应

背景

随着大模型应用的不断深入,prompt缓存(Prompt Cache)技术被视为提升推理效率、降低计算成本的重要手段。Anthropic旗下的Claude系列模型近期推出了缓存优化功能,理论上可将缓存有效时间(TTL)延长至1小时,从而提升模型在连续对话或重复提示场景下的响应速度和资源利用率。

然而,近期开发者社区中传出一条令人震惊的消息:在特定配置下,Claude Code的prompt缓存TTL被强制缩短至5分钟,性能损失高达90%。这一问题迅速引发了广泛讨论,并波及到开发者对Anthropic的信任。

事件详情

  1. 开发者在测试中发现,使用环境变量 DISABLE_TELEMETRY=1 后,Claude Code 的 prompt cache TTL 从原本的1小时骤降至5分钟。
  2. 据称,这一机制可能是Anthropic为了防止用户规避模型调用记录而设置的反制措施,但并未在官方文档中明确说明。
  3. 缓存时间缩短意味着模型在重复任务中需要频繁重新解析提示内容,从而导致响应延迟显著增加,推理成本也大幅提升。

5分钟缓存清零,性能打1折,集体声讨Claude,CC之父紧急回应

这一发现迅速在技术社区传播开来,尤其在需要高频调用模型的开发团队中引发了强烈不满。

社区反应与声讨

  • 多位开发者在GitHub、Reddit和X(原Twitter)上公开表达愤怒,认为Anthropic在性能控制上“暗箱操作”,缺乏透明度。
  • 有用户指出,这一行为类似于“性能锁”,即厂商通过非公开方式限制模型表现,从而变相鼓励用户付费。
  • 社区内部分析认为,此举不仅影响了用户体验,也违背了开发者对模型“性能承诺”的期待。

声讨的焦点逐渐集中在Anthropic是否在用户不知情的情况下对模型进行降级处理,甚至有人将其与OpenAI等厂商的API限制政策类比,认为这是一场“厂商控制权”与“用户自由权”的较量。

CC之父紧急回应

面对舆论压力,Anthropic联合创始人兼首席科学家 Dario Amodei(常被称为“CC之父”)迅速作出回应,主要观点包括:

  • 承认 DISABLE_TELEMETRY=1 会导致缓存策略发生变化,但强调这是出于“安全与合规”考虑。
  • 表示并未有意“惩罚”关闭遥测的用户,但遥测数据对于模型优化和系统维护至关重要。
  • 承诺将重新评估缓存机制的透明度,并考虑在未来版本中提供更灵活的配置选项。

此外,Amodei呼吁开发者理解公司立场,并表示愿意与社区进一步沟通,以达成性能与隐私之间的平衡。

影响与后续

目前,该事件已对Anthropic的开发者关系造成一定冲击,具体影响包括:

  • 开发者对厂商“隐藏参数”的不信任感增强,要求更多模型行为透明度。
  • 部分项目组开始评估是否转向其他支持更明确缓存机制的模型,如OpenAI的GPT系列或Google的Gemini。
  • 行业内开始讨论“模型性能控制”是否应受到监管或第三方审计,以避免厂商滥用性能调节权。

尽管Anthropic已作出初步回应,但开发者社区仍在等待更具体的补救措施和政策调整。此次事件也再次提醒了AI生态中“开放性”与“控制权”之间的微妙平衡问题。