万亿数据产业背后,被AI「困住」的打工人
数据标注员:互联网流水线上的“认知机器”
他们和产品经理、程序员同在一个办公室,却从未被邀请参加早会。当AI产品样机被推来,程序员们兴奋把玩,标注员只是埋头拉框——他们不知道,正是自己的劳动创造了这个产品。小颜每天拍下堆积如山的习题册,在电脑上对每一道题拉框标注;小河听着浓重口音的中学生录音,区分英音和美音,一天200条,每条两分钟,耳朵酸胀到“不由自主地烦躁”。上海大学教授贾文娟将这种劳动定义为“认知劳动”——人出售自己的认知,却必须像机器人一样思考,抛弃常识去适应机器的逻辑。
这份工作的残酷在于:看似是脑力活,实则是极度重复的机械劳动。一位山东标注员做过最困难的项目是指纹标注,沿着模糊的指纹边缘一点点拉框,“回家后闭眼都是指纹”。项目前期还有讨论争辩的乐趣,中后期规则定型,只剩无尽的重复。员工流失率极高,一家仅不到20人的标注公司,新员工常常第一天来第二天跑,老板不得不降低招人标准,最终只剩两名标注员时被迫解散。

单价低至5分钱:层层转包下的生存挣扎
数据标注行业的利润被中间商层层蚕食。以自动驾驶2D拉框为例,大公司派单价格一毛一个,接活的标注团队只能拿到八分,如今已降到五六分。如果低于八分,小代只能亏本。他大部分时间在平台和贴吧找项目,真真假假,一个项目的钱等了8个月还没到账。为了抢单,他半夜三点定闹钟去抢平台放出的项目。人员流失、单价压低、回款不稳定,像肿瘤一样拖垮了行业中多数小公司。
大模型来了:门槛飙升,但焦虑依旧
大模型浪潮给数据标注带来新订单,也带来了更高门槛。今年4月,一家头部大模型厂商建立数据标注基地,首批标注员本科率达到100%。新人要阅读30万字的培训材料,通过考试才能上岗。每天做70-80道题,给大模型的多个回答打分(RLHF),5分满分,1分最低,还要划分错误类型。小王每月底薪1800元,加上绩效能拿到4000元,在当地算中上水平,他对这份工作感到满意。然而,他发现“AI的回复还没有到能让我觉得很满意或者很出彩的程度”,多数答案只能打3分以下。
程序员焦虑:从“使用AI”变成“表演使用AI”
当其他行业还在鼓励员工用AI时,计算机从业者已经陷入更深的困境:如何“表演使用AI”以完成KPI。算法工程师小段尽量不让标注员闲着,因为领导看周报,如果任务不多就会要求多投放任务。更微妙的是,虽然共事的程序员嘴上说每个工种都有价值,但仍会不经意流露出轻视。而标注员们也感受到了这种技术至上的冷漠。
合成数据来袭:AI正在淘汰训练AI的人
最致命的冲击来自技术本身。一家数据公司表示自动化标注比例已达70%,算法工程师小李正在尝试用生成式AI合成高质量训练数据,“只要一小部分真实数据为蓝本,就能无限生成,完全不需要人了”。OpenAI创始人Sam Altman明确说:“合成数据是解决大模型数据短缺的最有效办法。”小李坦承自己的目标就是“取代这行业的人”,可能就在一两年内。对于数量庞大的数据标注员,他们中的多数甚至不清楚ChatGPT是什么,日子平静如水。唯一的变化是公司提供的标注工具中多了一个对话机器人,效率从每天五六百个框提升到七百多——但没有人意识到,那正是自己将被淘汰的前奏。