下一个AI较量场，为什么是Harness？

1 个月前

AI资讯

67 阅读

AI编程 Harness 工程系统

Harness不是道具，是AI编程的“作战系统”

当大模型的推理能力趋近同质化时，真正拉开体验差距的已不再是模型参数，而是围绕模型搭建的工程系统。Harness Engineering这一概念在硅谷迅速走红——它被定义为“模型之外的一切”：prompt模板、上下文管理、检索策略、多步推理编排、工具调用逻辑，以及让AI安全稳定执行任务的闭环沙箱。百度智能云相关负责人云周用了一个形象的比喻：大模型是惊人体能却横冲直撞的野马，缰绳是提示词工程，马鞍是RAG插件，马镫是执行沙箱，整套马具就是Harness。只有配上这套系统，才能将野马驯化为稳定输出的赛马。腾讯集团高级执行副总裁汤道生在3月的演讲中明确表示：“AI落地不只是一道算法题，更是一道工程题。”同一句话，正在成为行业共识。

同一个模型，换一套Harness，成绩单从不及格飙升到优秀

支持Harness工程重要的论据来自公开测试数据。SWE-Bench Mobile论文显示，同一款Claude Opus 4.5在不同Harness配置下，成功率从2%跃升至12%，差6倍；LangChain的编码Agent在优化Harness而不修改底层模型时，得分从52.8%提升至66.5%，排名从第30名直接冲进前五。更极端的案例来自CreaoAI——这家硅谷公司的Harness Agent系统实现了99%的代码由AI完成，每天平均3到8次生产部署，原本六周的产品流程现在一天跑完。这些数据反复印证一个逻辑：模型能力固然重要，但Harness才是将理论能力转化为可靠产出的“水管”。正如OpenAI Codex团队的经验总结——“Agent不难，Harness才难”。

下一个AI较量场，为什么是Harness？

Meta-Harness：让AI自己设计最好的“马具”

围绕Harness的价值，行业曾陷入激烈争论：OpenAI的Noam Brown认为Harness只是拐杖，模型终将超越它；Anthropic的实践则展示出一条“Build to Delete”路径——模型变强后，原先厚重的Harness会被自动减薄。而斯坦福和MIT团队提交的Meta-Harness论文给出了一个更精巧的答案：既然手工设计Harness终将被淘汰，那就让AI来接管优化过程。Meta-Harness的核心机制极其“反智”——让一个大型编码Agent维循环生成、评估、保存完整执行轨迹（每轮可达1000万tokens），然后自主翻阅数百个文件进行诊断，写出更好的Harness。在文本分类任务上，Meta-Harness以48.6%的准确率超越此前最强手工基线（40.9%），token用量却减少近4倍；在编程Agent基准中，它自主发现了“环境自举”技巧——预先抓取沙箱快照，省下Agent2到4轮环境探索。这一方法重新定义了模型与Harness的关系：二者非此即彼，而是可以通过自动优化实现协同进化。

中国大厂已全面押注：腾讯、百度、字节的Harness实践

在硅谷共识形成的同时，国内厂商早已将Harness理念植入产品。腾讯汤道生宣称要全面“强化模型的Harness与工具”。百度智能云发布的国产龙虾产品DuMate（搭子）内置了安全沙箱和高危拦截机制，让AI在闭环隔离中执行代码，突破聊天机器人边界，成为能自主完成Word、Excel等办公任务的“AI搭子”。字节火山引擎推出的“龙虾”Arkclaw则采用了框架和模型协同进化的思路——让豆包模型在特定框架上跑得更好，而非通用适配。原通义千问技术负责人林俊旸在离职长文中更明确指出：智能体时代的竞争优势，将来自更好的环境、更紧的训推耦合、更强的Harness工程，以及把模型决策与后果串成闭环的能力。在主流模型推理能力差距逐渐缩小的当下，客户的选择重心已从“选哪个模型”转向“用哪套运行系统”。

信任AI为先导：组织重构与工程师的价值重估

Harness工程并不只是技术问题，它正在重塑团队结构。CreaoAI的实践表明，当大量对齐工作被AI接管后，产品经理的角色可以被直接拿掉，沟通成本大幅降低，效率反升。资深工程师面临“资深悖论”——初级工程师比资深专家更适应AI转型，因为未来核心能力不是写代码，而是“找出AI规划的缺陷”和“判断什么有价值”。百度云周也指出，2026年不需要全能的通用模型，需要在垂直场景下通过Harness建立高吞吐的强化学习系统。信任从人转向AI，需要靠谱的护栏——而Harness正是那个既保证AI发挥能力，又确保安全可控的“战场指挥部”。下一个AI较量场的赢家，不是模型最强者，而是运行系统最精良者。

下一个AI较量场，为什么是Harness？

Harness不是道具，是AI编程的“作战系统”

同一个模型，换一套Harness，成绩单从不及格飙升到优秀

Meta-Harness：让AI自己设计最好的“马具”

中国大厂已全面押注：腾讯、百度、字节的Harness实践

信任AI为先导：组织重构与工程师的价值重估

链接失效反馈