OpenClaw代码越改越崩？新研究EvoClaw揭示：Agents持续开发成功率仅13.37%

1 个月前

AI资讯

40 阅读

AI OpenClaw EvoClaw Agents 代码崩溃

OpenClaw项目的困境：代码越改越乱

近期，名为OpenClaw的开源项目引发了关注。作为一个旨在展示AI能力的编程项目，它在经历了一轮又一轮的代码修改后，并没有变得更好，反而出现了“越改越崩”的奇怪现象。原本预期的性能优化没有到来，取而代之的是代码库的混乱和功能性退化。这一现象并非孤例，它成为了本次新研究EvoClaw的重点观察对象，揭示了AI在理解复杂代码库和进行持续迭代时的深层问题。

EvoClaw研究揭秘：13.37%背后的残酷真相

最新的研究EvoClaw通过模拟真实的软件开发流程，对多个Agent（智能体）进行了测试。研究发现，当面对需要长期维护和持续修改的开发任务时，这些Agent的表现并不理想。

极低的成功率：数据显示，Agent持续开发的成功率仅为13.37%。这意味着在大多数情况下，AI无法独立完成从需求理解到代码实现并维持项目稳定性的全过程。
衡量标准：研究人员定义的成功标准非常严格，不仅要求代码能运行，还要求修改符合逻辑、不引入破坏性的Bug。
核心问题：造成这种现象的原因在于，Agent往往只能解决眼前的任务（例如修复一个具体的Bug），却很难在全局上把控代码质量，导致修改越多，系统熵增越快，最终崩盘。

智能体的局限性：为何无法持续交付？

为什么Agent在持续开发中如此脆弱？EvoClaw的研究指出了一些关键瓶颈：

缺乏长期记忆：Agent往往“记不住”之前的修改历史，导致新的修改可能与旧代码产生冲突。
上下文理解不足：面对复杂的代码架构，Agent难以理解局部修改对全局的影响，这就解释了为什么OpenClaw会出现越改越乱的情况。
过度拟合与“幻觉”：为了完成任务，Agent有时会生成看似合理但实际上无法运行的代码，或者在不该修改的地方进行改动。

这一发现对AI行业的深远影响

EvoClaw的研究结果和OpenClaw的现状给火热的AI自动编程领域泼了一盆冷水。

重定义AI能力边界：它提醒我们，虽然AI在生成代码片段（Code Snippet）上表现出色，但在中大型项目的工程化治理和长期维护上，距离成熟的人类开发者仍有巨大差距。
企业招聘趋势：这也解释了为何近期DeepSeek等公司急招Agent方向的人才。仅靠模型本身的“暴力”输出已无法解决工程问题，行业急需能够将Agent应用于真实工程场景、解决长周期维护问题的专业人才。
未来方向：未来的AI开发工具可能需要引入更强的“约束机制”和“环境反馈”，不仅仅是生成代码，更要学会像资深工程师一样思考架构和版本兼容性。