280美元一单，1000名工程师教Claude写好代码

1 个月前

AI资讯

39 阅读

claude Code AI训练代码评审人工反馈

千名工程师A/B投票，Claude Code每单280美元学写“好代码”

根据Business Insider报道，Anthropic正通过一个代号“Marlin”的项目，委托数据标注公司Snorkel AI招募约1000名拥有软件工程背景的外部工程师，专门打磨其代码智能体Claude Code。这些工程师接到的任务单价为280美元，耗时约一小时，流程更像一次真实的代码评审而非传统标注：他们从一份包含数千个GitHub仓库的清单中选出一个仓库，创建一个Pull Request，再撰写提示词描述任务，然后对比模型生成的两套代码输出，投票选出更好的一套。例如，在一个任务中，工程师要求模型重构系统处理执行元数据的方式，目标是让代码更清晰、更易维护但不改变功能；另一个任务则是对MLflow机器学习平台做安全修复，既要防止命令注入漏洞，又不能误伤合法的pip选项。这种反馈已远超简单标注，本质上是将资深工程师“这样写更好”的编程判断直接灌输给模型。

280美元一单，1000名工程师教Claude写好代码

从“弱监督”到“专家大军”：Snorkel AI的意外转身

Snorkel AI最初由斯坦福AI Lab孵化，其联合创始人Alex Ratner在2015年读博时开发了“弱监督”思路，试图用程序和规则代替人工逐条标注数据，一度被Google、Intel采用。但到了前沿模型时代，最稀缺的反而是博士、医生、律师、资深工程师等专家的品味和判断。Snorkel如今最赚钱的业务不再是减少人力，而是组织一支昂贵的专家大军去训练前沿AI——Marlin项目只是其中一单。Snorkel官网描述的流程是：先定义任务、评分标准和验证器，再运行专家评审流水线，作者、多位评审、最终裁决者层层把关，全程留痕。评分环境与数据隔离，让同一批任务能在不同模型版本上反复跑出可比分数，而评审者不知道自己评判的是哪个版本。Snorkel的客户名单包括Google、Mistral和Anthropic，2025年5月完成D轮融资后估值达13亿美元。其公开的法律方向合同岗每任务10-100美元，而Marlin的软件工程任务时薪约280美元，是Scale AI、Mercor等同行（约110美元/小时）的两倍半，顶尖专家周入可超3000美元。

巨头角力代码智能体：Cursor数据梦、OpenAI沙箱与真实行为争夺

当Anthropic砸钱买专家反馈时，其他玩家也在争夺开发者数据。Cursor的Tab模型每天产出超过10亿个编辑字符，请求量较初版涨了约100倍；其Composer模型通过强化学习训练，让模型在大量代码任务中学习调用编辑、搜索等工具。今年2月xAI并入SpaceX后，4月底SpaceX获得了年内以600亿美元收购Cursor母公司Anysphere的权利（或先付100亿美元做深度合作），马斯克看中的正是Cursor手里全球最活跃的真实开发者行为数据。5月25日，马斯克宣布新一代Grok V9-Medium训练完成，参数1.5T，特意指出“还没加Cursor数据补训”，加完后编程能力会强很多。OpenAI的Codex则走上另一条路：2025年发布的Codex由codex-1驱动，在真实编码任务上通过强化学习训练，目标是写出贴近人类风格、符合PR习惯的代码，并能在隔离沙箱里反复跑测试直到通过；如今Codex已成为每周用户超500万的agentic coding平台。

44%采纳率背后的真相：基准测试已死，真实反馈为王

一篇名为SWE-chat的论文首次大规模采集了真实智能体编码会话——6000段、超6.3万条用户提示、35.5万次工具调用，得出一个扎心数字：智能体产出的代码只有44%最终进入用户的提交。用户在一半以上的轮次里通过纠正、报错或中断来推翻模型输出。这意味着HumanEval等传统基准测试刷分已无意义，真正战场是真实开发中反复试错、推翻重来的数据。Anthropic花280美元一个任务、请1000名工程师做A/B投票，买的正是这种无法从静态语料中提取的“人传人”经验——从“写对”升级到“写得安全、可靠、可维护”。当AI能跑命令、能动线上代码，犯错的代价完全变了，训练目标也随之改变，而这些正是普通代码语料喂不出来的。Snorkel、Scale、Mercor这些昔日“标注平台”，如今已成为前沿模型公司背后的隐形供应链，靠组织专家判断来喂养AI的进步。

280美元一单，1000名工程师教Claude写好代码

千名工程师A/B投票，Claude Code每单280美元学写“好代码”

从“弱监督”到“专家大军”：Snorkel AI的意外转身

巨头角力代码智能体：Cursor数据梦、OpenAI沙箱与真实行为争夺

44%采纳率背后的真相：基准测试已死，真实反馈为王

链接失效反馈