下一个AI较量场,为什么是Harness?

Harness不是道具,是AI编程的“作战系统”

当大模型的推理能力趋近同质化时,真正拉开体验差距的已不再是模型参数,而是围绕模型搭建的工程系统。Harness Engineering这一概念在硅谷迅速走红——它被定义为“模型之外的一切”:prompt模板、上下文管理、检索策略、多步推理编排、工具调用逻辑,以及让AI安全稳定执行任务的闭环沙箱。百度智能云相关负责人云周用了一个形象的比喻:大模型是惊人体能却横冲直撞的野马,缰绳是提示词工程,马鞍是RAG插件,马镫是执行沙箱,整套马具就是Harness。只有配上这套系统,才能将野马驯化为稳定输出的赛马。腾讯集团高级执行副总裁汤道生在3月的演讲中明确表示:“AI落地不只是一道算法题,更是一道工程题。”同一句话,正在成为行业共识。

同一个模型,换一套Harness,成绩单从不及格飙升到优秀

支持Harness工程重要的论据来自公开测试数据。SWE-Bench Mobile论文显示,同一款Claude Opus 4.5在不同Harness配置下,成功率从2%跃升至12%,差6倍;LangChain的编码Agent在优化Harness而不修改底层模型时,得分从52.8%提升至66.5%,排名从第30名直接冲进前五。更极端的案例来自CreaoAI——这家硅谷公司的Harness Agent系统实现了99%的代码由AI完成,每天平均3到8次生产部署,原本六周的产品流程现在一天跑完。这些数据反复印证一个逻辑:模型能力固然重要,但Harness才是将理论能力转化为可靠产出的“水管”。正如OpenAI Codex团队的经验总结——“Agent不难,Harness才难”。

下一个AI较量场,为什么是Harness?

Meta-Harness:让AI自己设计最好的“马具”

围绕Harness的价值,行业曾陷入激烈争论:OpenAI的Noam Brown认为Harness只是拐杖,模型终将超越它;Anthropic的实践则展示出一条“Build to Delete”路径——模型变强后,原先厚重的Harness会被自动减薄。而斯坦福和MIT团队提交的Meta-Harness论文给出了一个更精巧的答案:既然手工设计Harness终将被淘汰,那就让AI来接管优化过程。Meta-Harness的核心机制极其“反智”——让一个大型编码Agent维循环生成、评估、保存完整执行轨迹(每轮可达1000万tokens),然后自主翻阅数百个文件进行诊断,写出更好的Harness。在文本分类任务上,Meta-Harness以48.6%的准确率超越此前最强手工基线(40.9%),token用量却减少近4倍;在编程Agent基准中,它自主发现了“环境自举”技巧——预先抓取沙箱快照,省下Agent2到4轮环境探索。这一方法重新定义了模型与Harness的关系:二者非此即彼,而是可以通过自动优化实现协同进化。

中国大厂已全面押注:腾讯、百度、字节的Harness实践

在硅谷共识形成的同时,国内厂商早已将Harness理念植入产品。腾讯汤道生宣称要全面“强化模型的Harness与工具”。百度智能云发布的国产龙虾产品DuMate(搭子)内置了安全沙箱和高危拦截机制,让AI在闭环隔离中执行代码,突破聊天机器人边界,成为能自主完成Word、Excel等办公任务的“AI搭子”。字节火山引擎推出的“龙虾”Arkclaw则采用了框架和模型协同进化的思路——让豆包模型在特定框架上跑得更好,而非通用适配。原通义千问技术负责人林俊旸在离职长文中更明确指出:智能体时代的竞争优势,将来自更好的环境、更紧的训推耦合、更强的Harness工程,以及把模型决策与后果串成闭环的能力。在主流模型推理能力差距逐渐缩小的当下,客户的选择重心已从“选哪个模型”转向“用哪套运行系统”。

信任AI为先导:组织重构与工程师的价值重估

Harness工程并不只是技术问题,它正在重塑团队结构。CreaoAI的实践表明,当大量对齐工作被AI接管后,产品经理的角色可以被直接拿掉,沟通成本大幅降低,效率反升。资深工程师面临“资深悖论”——初级工程师比资深专家更适应AI转型,因为未来核心能力不是写代码,而是“找出AI规划的缺陷”和“判断什么有价值”。百度云周也指出,2026年不需要全能的通用模型,需要在垂直场景下通过Harness建立高吞吐的强化学习系统。信任从人转向AI,需要靠谱的护栏——而Harness正是那个既保证AI发挥能力,又确保安全可控的“战场指挥部”。下一个AI较量场的赢家,不是模型最强者,而是运行系统最精良者。