280美元一单,1000名工程师教Claude写好代码
千名工程师A/B投票,Claude Code每单280美元学写“好代码”
根据Business Insider报道,Anthropic正通过一个代号“Marlin”的项目,委托数据标注公司Snorkel AI招募约1000名拥有软件工程背景的外部工程师,专门打磨其代码智能体Claude Code。这些工程师接到的任务单价为280美元,耗时约一小时,流程更像一次真实的代码评审而非传统标注:他们从一份包含数千个GitHub仓库的清单中选出一个仓库,创建一个Pull Request,再撰写提示词描述任务,然后对比模型生成的两套代码输出,投票选出更好的一套。例如,在一个任务中,工程师要求模型重构系统处理执行元数据的方式,目标是让代码更清晰、更易维护但不改变功能;另一个任务则是对MLflow机器学习平台做安全修复,既要防止命令注入漏洞,又不能误伤合法的pip选项。这种反馈已远超简单标注,本质上是将资深工程师“这样写更好”的编程判断直接灌输给模型。

从“弱监督”到“专家大军”:Snorkel AI的意外转身
Snorkel AI最初由斯坦福AI Lab孵化,其联合创始人Alex Ratner在2015年读博时开发了“弱监督”思路,试图用程序和规则代替人工逐条标注数据,一度被Google、Intel采用。但到了前沿模型时代,最稀缺的反而是博士、医生、律师、资深工程师等专家的品味和判断。Snorkel如今最赚钱的业务不再是减少人力,而是组织一支昂贵的专家大军去训练前沿AI——Marlin项目只是其中一单。Snorkel官网描述的流程是:先定义任务、评分标准和验证器,再运行专家评审流水线,作者、多位评审、最终裁决者层层把关,全程留痕。评分环境与数据隔离,让同一批任务能在不同模型版本上反复跑出可比分数,而评审者不知道自己评判的是哪个版本。Snorkel的客户名单包括Google、Mistral和Anthropic,2025年5月完成D轮融资后估值达13亿美元。其公开的法律方向合同岗每任务10-100美元,而Marlin的软件工程任务时薪约280美元,是Scale AI、Mercor等同行(约110美元/小时)的两倍半,顶尖专家周入可超3000美元。
巨头角力代码智能体:Cursor数据梦、OpenAI沙箱与真实行为争夺
当Anthropic砸钱买专家反馈时,其他玩家也在争夺开发者数据。Cursor的Tab模型每天产出超过10亿个编辑字符,请求量较初版涨了约100倍;其Composer模型通过强化学习训练,让模型在大量代码任务中学习调用编辑、搜索等工具。今年2月xAI并入SpaceX后,4月底SpaceX获得了年内以600亿美元收购Cursor母公司Anysphere的权利(或先付100亿美元做深度合作),马斯克看中的正是Cursor手里全球最活跃的真实开发者行为数据。5月25日,马斯克宣布新一代Grok V9-Medium训练完成,参数1.5T,特意指出“还没加Cursor数据补训”,加完后编程能力会强很多。OpenAI的Codex则走上另一条路:2025年发布的Codex由codex-1驱动,在真实编码任务上通过强化学习训练,目标是写出贴近人类风格、符合PR习惯的代码,并能在隔离沙箱里反复跑测试直到通过;如今Codex已成为每周用户超500万的agentic coding平台。
44%采纳率背后的真相:基准测试已死,真实反馈为王
一篇名为SWE-chat的论文首次大规模采集了真实智能体编码会话——6000段、超6.3万条用户提示、35.5万次工具调用,得出一个扎心数字:智能体产出的代码只有44%最终进入用户的提交。用户在一半以上的轮次里通过纠正、报错或中断来推翻模型输出。这意味着HumanEval等传统基准测试刷分已无意义,真正战场是真实开发中反复试错、推翻重来的数据。Anthropic花280美元一个任务、请1000名工程师做A/B投票,买的正是这种无法从静态语料中提取的“人传人”经验——从“写对”升级到“写得安全、可靠、可维护”。当AI能跑命令、能动线上代码,犯错的代价完全变了,训练目标也随之改变,而这些正是普通代码语料喂不出来的。Snorkel、Scale、Mercor这些昔日“标注平台”,如今已成为前沿模型公司背后的隐形供应链,靠组织专家判断来喂养AI的进步。