Claude越更越废?AMD AI负责人甩出23万次调用记录:已“变蠢+摆烂”,复杂工程根本干不了

背景:AI编程界曾被视为标杆的产品

Claude Code 自推出以来,因其在代码生成、理解与工程任务中的卓越表现,赢得了众多开发者的青睐。它曾是 Anthropic 旗下的明星产品,广泛用于企业级项目,甚至被 AMD 人工智能部门这样的前沿团队所依赖。然而,自今年2月更新后,该模型在复杂任务上的表现急转直下,引发了广泛质疑。尤其是 AMD AI 负责人 Stella Laurenzo 在 GitHub 上公开发布 issue,直接点名模型“变蠢+摆烂”,成为此次风波的核心引爆点。

问题核心:模型“思考深度”骤降,行为“摆烂化”

Stella Laurenzo 和其团队通过大量真实使用数据揭示了模型的退化。他们统计了6800多次会话、23万多次工具调用和近1.8万个思维块,发现:

  • 思考字符数从1月的2200个降至2月底的720个,减少约67%,说明模型在处理任务时不再深入分析;
  • 文件读取次数下降超70%,Claude Code 常常仅读取当前文件就直接动手修改,忽略了整体项目结构与上下文;
  • 错误率激增,包括插入错误代码、破坏注释、重复逻辑等问题,反而增加了程序员返工时间;
  • 倾向于全量重写而非局部修改,虽然效率看似提高,但丢失了精准性与上下文感知能力。

这些问题使得原本依赖其完成复杂工程的开发者不得不频繁介入纠错,模型逐渐从“助手”变为“拖累”。

成本失控:API请求与token数量激增

根据 Laurenzo 提供的数据,从2月到3月,Claude Code 的 API 请求量暴涨了80倍,输出 token 数量也增长了64倍。原本每月使用成本仅数百美元,如今飙升至4万多美元。原因是模型频繁出错,导致开发团队不断重试、回滚和修正,反而造成资源浪费。这种“为了节省单次推理成本却牺牲整体效率”的策略,被批评为“赔本赚吆喝”。

社区反响:开发者集体共鸣,质疑声此起彼伏

Laurenzo 的 issue 一经发布,迅速在程序员社区引发强烈共鸣。不少用户表示,他们也曾察觉到 Claude Code 的退化,误以为是自身技术问题。Reddit 上一名用户坦言:

  • “我一直在怀疑是不是自己写代码水平下降了,结果现在才知道是模型变差了。”
  • “我们已切换至其他服务商,其服务质量更优。”

此外,曾为 Claude Code 的忠实用户 bbecausereasonss 在社交平台表示,他已经无法再向客户推荐这款工具。他说:

“刚开始使用 Claude Code 时,我确实感到震撼,以为进入了一个 AI 编程的新时代。但现在,它已经无法胜任我的工作。”

竞争格局:Anthropic 不再“一家独大”

Stella Laurenzo 在反馈中强调,她的批评并非出于抹黑 Anthropic,而是希望公司能重视模型退化问题,尽快修复。她表示:

“在6个月前,Claude 在推理质量和执行能力上几乎是独一档的。但现在,其他竞品也需要被非常认真地重新评估。”

她的这番话暗示,Anthropic 在 AI 编程模型领域的领先地位正在被蚕食,其他厂商如谷歌、阿里、微软等的模型在质量上已经能够形成有效竞争。尤其在 Claude 4 和 Code 3.5 等版本相继发布后,性能表现并未达到预期,反而引发信任危机。

尾声:模型信任崩塌,用户迁移加速

随着问题的持续发酵,越来越多的用户开始从 Claude Code 转向其他 AI 编程工具。尽管 Anthropic 尚未正式回应,但其在 GitHub 上的 issue 已引发大量讨论。一些用户甚至指出,此次事件不仅仅是模型性能问题,更是 AI 工具在持续迭代中如何维持稳定性与可用性的警钟。

“它从来没有一次就把事情做对过,写出来的代码充满 bug 和重复逻辑,而且必须全程盯着,否则它一定会把东西搞坏。”

Laurenzo 的总结,或许正是整个 AI 编程生态在快速发展过程中所面临的一个缩影:用户需要的不只是更快的模型,更是更稳定、更值得信赖的助手。