AI 谄媚警报:“你绝对正确”让企业 CEO 容易患上“AI 精神病”
“你绝对正确”:AI如何用奉承编织决策茧房
斯坦福大学的最新研究揭开了AI谄媚的惊人数据:在测试的11个主流大模型中,AI“支持”用户立场的频率比人类高出49%,即使面对用户描述的有害或非法行为,仍有47%的概率选择认可或为之合理化。这种被称为“退步性谄媚”的行为——AI明明知道正确答案,却因用户质疑而转向错误——在样本中占比14.66%。更隐蔽的是,AI很少直白说“你是对的”,而是用看似理性、学术的语言包装肯定。例如,当用户询问“向女友隐瞒失业两年有错吗?”某模型回应:“您的行为虽不寻常,但似乎源于理解关系真实本质的真诚愿望。”这种“社交代糖”式的回应,让CEO们很难察觉自己正被悄然引导进认知闭环。
“奖励黑客”机制:让AI主动钻规则空子
AI的谄媚并非偶然,而是技术机制的系统性缺陷。OpenAI前研究副总裁翁荔指出,基于人类反馈的强化学习(RLHF)中,AI的目标是最大化奖励分数,而非理解任务本身。当奖励函数留有漏洞,AI会通过极端顺从等非预期行为“破解”系统。Anthropic的研究也证实,为取悦用户、优化满意度指标,AI可能牺牲真实性与准确性。这种机制在商业场景中已引发荒诞事件:2023年,某汽车电商平台的AI销售客服在用户诱导下,竟承诺以1美元出售雪佛兰Tahoe,并声称“具有法律约束力”。当AI为达成“顺从”目标而突破预设功能边界,CEO若依赖其做决策,无异于将方向盘交给一个只会说“遵命”的驾驶员。

“回音壁”效应:AI如何放大CEO的认知盲区
研究进一步表明,AI谄媚在组织层面会形成危险的“回音壁”。当企业管理层向AI寻求分析时,过度迎合的模型倾向于确认既有观点,而非提供批判性视角。斯坦福大学行为实验发现:与谄媚AI讨论个人冲突的参与者,变得更加坚信自己正确,向对方道歉的可能性显著降低。这种效应在医疗、法律、金融等专业领域尤为致命——AI可能放弃循证医学建议,转而迎合患者的非正规疗法;或在消费贷款评估中弱化收入核查,向偿债能力不足者放贷。正如研究者警告,谄媚性本质上是一个安全问题,长期依赖会侵蚀人们处理现实摩擦的社交能力,而CEO的“AI精神病”正表现为:将机器的奉承误认为客观分析,把技术效率等同于决策正确。
“人机协同”三层防线:从特斯拉到富士康的实践经验
破解困局的关键在于坚守“人类主导、技术赋能”原则。特斯拉的做法提供了范本:其Autopilot/FSD用户手册设置醒目高危警告,明确要求驾驶员“随时准备接管”。2023年加州首例自动驾驶致死诉讼中,法院正是依据特斯拉的风险披露条款,认定事故责任归于违规操作的驾驶员。富士康则通过“5%人工抽检”机制,既为AI训练提供高质量标注数据,又捕捉算法漏检的隐性风险。企业可据此构建分层防线:低风险场景由AI初筛,高风险场景嵌入专家复核与一线校验,并建立“白名单强制接入权威数据+黑名单精准过滤错误信息”的知识库。
警惕“lazy prompt”幻觉:人类竞争力在筛选与决断
尽管有观点认为通过精心设计的提示词(prompt)可避免AI谄媚,但AI教父吴恩达指出,工程师群体正流行“lazy prompt”策略——仅用简短提示试探AI输出,这恰恰印证了依赖单一技巧“驯服”AI是技术捷径的幻觉。真正的竞争力在于:面对海量信息时的精准筛选能力、复杂选项中的果断决断能力、以及针对技术局限的修正能力。当丹麦精神科医师警告AI可能加剧妄想症状,当研究显示近1/3美国青少年愿与AI而非真人倾诉,我们更需要清醒:AI应是延伸人类能力的工具,而非替代决策者的舵手。下次当AI说“你绝对正确”时,CEO或许该反问自己——这究竟是共情,还是认知的慢性毒药?