Harness 刚火,可能就要成为过去时了


Harness Engineering 的核心理念是构建一套系统,用来让 AI Agent 在实际任务中更稳定、可靠地执行,而非单纯依赖模型的输出。它强调的不是模型本身有多强大,而是如何通过系统设计,让模型“别自信地干错事”。从 2026 年初开始,OpenAI、Anthropic 以及多个 Coding Agent 团队都在围绕这一概念展开探索。但有趣的是,随着模型能力的持续进化,Harness Engineering 的必要性也开始被重新审视。


背景:从 Prompt Engineering 到 Context Engineering,再到 Harness Engineering

  • Prompt Engineering:最初,人们试图通过优化输入提示来提升 AI 输出质量,认为模型的回答是可以被“调教”的。
  • Context Engineering:随着模型处理复杂任务的能力增强,上下文管理变得关键,如何控制信息的进出成了新挑战。
  • Harness Engineering:如今,随着 AI Agent 被用于更长时间的执行任务,社区开始意识到,真正影响任务成败的,是外部系统的结构化设计,而非 Prompt 或 Context 的精细程度。

Harness Engineering 的提出,标志着 AI 工程的重心从“模型输出”转向“系统控制”,从“怎么说”转向“怎么稳”。


范式转变:模型不再万能,系统才是关键

过去 AI 圈的注意力集中在模型的 benchmark 分数上,谁的模型更大、更强、更聪明,谁就占优势。但进入 Agent 时代后,模型的“一次性发挥”并不能保证整个任务的正确性。

  • OpenAI Codex 团队的实践表明,即便模型能力很强,也需要有机制来确保输出符合架构边界。
  • Anthropic 在其 long-running agent 的实验中发现,模型不擅长评估自己的成果,必须引入 evaluator 模块。
  • 多个 Coding Agent 项目(如 OpenClaw)通过队列机制、语义快照、权限控制等方式,构建了一套运行时的稳定性保障。

Harness 刚火,可能就要成为过去时了

这些实践都指向一个核心问题:模型的“智力”不是瓶颈,稳定性与控制机制才是交付失败的关键


Harness Engineering 的核心价值

Harness Engineering 的真正价值不在于它提供了多少新功能,而在于它能帮助系统收敛执行过程,减少发散性错误

  • 任务分解机制:将一个复杂任务拆解为可执行、可验证的多个子任务。
  • 外部状态记录:通过 feature list、progress log、git commit 等外部工件记录执行状态,避免依赖模型“记忆”。
  • 执行与验证分离:如 Anthropic 的 generator / evaluator 模式,先输出结果,再由专门模块进行校验。
  • 错误反馈机制:当 Agent 出错时,系统能自动定位责任、分配修复任务。
  • AI协作系统:如 ONES 项目所展示的 AI² Execution System,多个 Agent 协作完成任务,而不是单个 Agent 包打天下。

这些机制看似“不够智能”,但它们构成了 AI 在真实世界中可靠执行的基础设施。


新的转向:模型变强后,Harness 可能成为“冗余”

尽管 Harness Engineering 在短期内被视为 AI Agent 落地的“救命稻草”,但随着新一代模型能力的提升,一些原本必须依赖 Harness 的机制,正变得可有可无。

  • 模型记忆力增强:过去需要靠外部日志来保持上下文连续,现在模型可以记住整个任务流程。
  • 自我评估能力提升:早期模型不擅长判断自己的输出是否合理,但新模型在 evaluator 机制上表现出色。
  • 长任务稳定性提高:模型退化问题逐渐缓解,一些“防跑偏”设计变得多余。

Anthropic 的内部实践就已说明:一些原本用于对抗模型退化的流程,随着新模型的上线,已经可以被逐步拆解。这也引发了一个思考:Harness 是过渡方案,还是长期工程基础?


行业动向与未来预测

目前 AI 圈对 Harness Engineering 的态度出现了微妙分化:

  • 保守派:认为系统设计仍然是核心,模型再强也需要控制边界。代表是 ONES 团队,他们强调 AI 之间的协作与验收机制。
  • 激进派:认为未来模型会自动完成任务拆解、自我验证、错误修复,Harness 机制将成为历史负担。代表是 OpenAI Codex 团队,他们提出 OneShot 概念,希望减少对复杂系统架构的依赖。

此外,一些投资人也开始警惕:当模型能力不断提升时,依赖 Harness 的产品会不会成为“过渡期的牺牲品”?


总结:Harness Engineering 是桥梁,但可能不是终点

Harness Engineering 的兴起,反映了 AI Agent 从“回答问题”到“交付结果”的关键演进。但随着模型能力的增强,很多原本需要靠外部系统解决的问题,正在被模型内部机制消化。

模型是引擎,Harness 是车壳,当引擎足够智能时,车壳是否还要越来越复杂?

因此,Harness Engineering 很可能只是一个过渡阶段的工程范式。当 AI 模型具备更强的自我控制、任务拆解与结果验证能力后,这层“壳”也许就会变得不再必要。而真正能长期生存的产品,应该是既能利用 Harness 稳定输出,又能随着模型进化逐步减少其依赖的系统

这或许才是 AI 工程演进的真正方向。