OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%

OpenClaw项目的困境:代码越改越乱

近期,名为OpenClaw的开源项目引发了关注。作为一个旨在展示AI能力的编程项目,它在经历了一轮又一轮的代码修改后,并没有变得更好,反而出现了“越改越崩”的奇怪现象。原本预期的性能优化没有到来,取而代之的是代码库的混乱和功能性退化。这一现象并非孤例,它成为了本次新研究EvoClaw的重点观察对象,揭示了AI在理解复杂代码库和进行持续迭代时的深层问题。

EvoClaw研究揭秘:13.37%背后的残酷真相

最新的研究EvoClaw通过模拟真实的软件开发流程,对多个Agent(智能体)进行了测试。研究发现,当面对需要长期维护和持续修改的开发任务时,这些Agent的表现并不理想。

  • 极低的成功率:数据显示,Agent持续开发的成功率仅为13.37%。这意味着在大多数情况下,AI无法独立完成从需求理解到代码实现并维持项目稳定性的全过程。
  • 衡量标准:研究人员定义的成功标准非常严格,不仅要求代码能运行,还要求修改符合逻辑、不引入破坏性的Bug。
  • 核心问题:造成这种现象的原因在于,Agent往往只能解决眼前的任务(例如修复一个具体的Bug),却很难在全局上把控代码质量,导致修改越多,系统熵增越快,最终崩盘。

智能体的局限性:为何无法持续交付?

为什么Agent在持续开发中如此脆弱?EvoClaw的研究指出了一些关键瓶颈:

  1. 缺乏长期记忆:Agent往往“记不住”之前的修改历史,导致新的修改可能与旧代码产生冲突。
  2. 上下文理解不足:面对复杂的代码架构,Agent难以理解局部修改对全局的影响,这就解释了为什么OpenClaw会出现越改越乱的情况。
  3. 过度拟合与“幻觉”:为了完成任务,Agent有时会生成看似合理但实际上无法运行的代码,或者在不该修改的地方进行改动。

这一发现对AI行业的深远影响

EvoClaw的研究结果和OpenClaw的现状给火热的AI自动编程领域泼了一盆冷水。

  • 重定义AI能力边界:它提醒我们,虽然AI在生成代码片段(Code Snippet)上表现出色,但在中大型项目的工程化治理长期维护上,距离成熟的人类开发者仍有巨大差距。
  • 企业招聘趋势:这也解释了为何近期DeepSeek等公司急招Agent方向的人才。仅靠模型本身的“暴力”输出已无法解决工程问题,行业急需能够将Agent应用于真实工程场景、解决长周期维护问题的专业人才。
  • 未来方向:未来的AI开发工具可能需要引入更强的“约束机制”和“环境反馈”,不仅仅是生成代码,更要学会像资深工程师一样思考架构和版本兼容性。