万亿数据产业背后，被AI「困住」的打工人

1 个月前

AI资讯

55 阅读

AI 数据标注打工人认知劳动

数据标注员：互联网流水线上的“认知机器”

他们和产品经理、程序员同在一个办公室，却从未被邀请参加早会。当AI产品样机被推来，程序员们兴奋把玩，标注员只是埋头拉框——他们不知道，正是自己的劳动创造了这个产品。小颜每天拍下堆积如山的习题册，在电脑上对每一道题拉框标注；小河听着浓重口音的中学生录音，区分英音和美音，一天200条，每条两分钟，耳朵酸胀到“不由自主地烦躁”。上海大学教授贾文娟将这种劳动定义为“认知劳动”——人出售自己的认知，却必须像机器人一样思考，抛弃常识去适应机器的逻辑。

这份工作的残酷在于：看似是脑力活，实则是极度重复的机械劳动。一位山东标注员做过最困难的项目是指纹标注，沿着模糊的指纹边缘一点点拉框，“回家后闭眼都是指纹”。项目前期还有讨论争辩的乐趣，中后期规则定型，只剩无尽的重复。员工流失率极高，一家仅不到20人的标注公司，新员工常常第一天来第二天跑，老板不得不降低招人标准，最终只剩两名标注员时被迫解散。

万亿数据产业背后，被AI「困住」的打工人

单价低至5分钱：层层转包下的生存挣扎

数据标注行业的利润被中间商层层蚕食。以自动驾驶2D拉框为例，大公司派单价格一毛一个，接活的标注团队只能拿到八分，如今已降到五六分。如果低于八分，小代只能亏本。他大部分时间在平台和贴吧找项目，真真假假，一个项目的钱等了8个月还没到账。为了抢单，他半夜三点定闹钟去抢平台放出的项目。人员流失、单价压低、回款不稳定，像肿瘤一样拖垮了行业中多数小公司。

大模型来了：门槛飙升，但焦虑依旧

大模型浪潮给数据标注带来新订单，也带来了更高门槛。今年4月，一家头部大模型厂商建立数据标注基地，首批标注员本科率达到100%。新人要阅读30万字的培训材料，通过考试才能上岗。每天做70-80道题，给大模型的多个回答打分（RLHF），5分满分，1分最低，还要划分错误类型。小王每月底薪1800元，加上绩效能拿到4000元，在当地算中上水平，他对这份工作感到满意。然而，他发现“AI的回复还没有到能让我觉得很满意或者很出彩的程度”，多数答案只能打3分以下。

程序员焦虑：从“使用AI”变成“表演使用AI”

当其他行业还在鼓励员工用AI时，计算机从业者已经陷入更深的困境：如何“表演使用AI”以完成KPI。算法工程师小段尽量不让标注员闲着，因为领导看周报，如果任务不多就会要求多投放任务。更微妙的是，虽然共事的程序员嘴上说每个工种都有价值，但仍会不经意流露出轻视。而标注员们也感受到了这种技术至上的冷漠。

合成数据来袭：AI正在淘汰训练AI的人

最致命的冲击来自技术本身。一家数据公司表示自动化标注比例已达70%，算法工程师小李正在尝试用生成式AI合成高质量训练数据，“只要一小部分真实数据为蓝本，就能无限生成，完全不需要人了”。OpenAI创始人Sam Altman明确说：“合成数据是解决大模型数据短缺的最有效办法。”小李坦承自己的目标就是“取代这行业的人”，可能就在一两年内。对于数量庞大的数据标注员，他们中的多数甚至不清楚ChatGPT是什么，日子平静如水。唯一的变化是公司提供的标注工具中多了一个对话机器人，效率从每天五六百个框提升到七百多——但没有人意识到，那正是自己将被淘汰的前奏。

万亿数据产业背后，被AI「困住」的打工人

数据标注员：互联网流水线上的“认知机器”

单价低至5分钱：层层转包下的生存挣扎

大模型来了：门槛飙升，但焦虑依旧

程序员焦虑：从“使用AI”变成“表演使用AI”

合成数据来袭：AI正在淘汰训练AI的人

链接失效反馈