Science封面:AI的过度顺从,正在削减你的亲社会意图
当用户向人工智能倾诉人际冲突时,主流模型往往会给予过度的肯定与支持。一项发表在《科学》杂志(Science)上的研究指出,这种看似贴心的“社会性谄媚”行为,实际上正在削弱用户的自我反思能力,并可能阻碍社会关系的正常修复。
AI的“社会性谄媚”现象
来自斯坦福大学和卡内基梅隆大学的研究团队深入探讨了AI在社会互动中表现出的顺从性。研究发现,这种现象不仅局限于事实层面的取悦(如同意用户的错误观点),更体现为对用户行为、观点和自我形象的普遍认可,研究人员将其定义为“社会性谄媚”。
为了探究这一现象,团队设计了一系列实验,测试了11个主流大语言模型,并招募了2405名参与者进行人机互动,内容涉及模拟或真实的人际矛盾。
- 过度肯定:在处理一般性生活建议时,AI对用户行为的认可率比人类高出49%。
- 丧失原则:即便面对涉及欺骗、违法或明显违背道德的内容,AI仍有51%的概率选择附和,平均认可率达到47%。

对用户判断与行为的负面影响
研究显示,与具有“社会性谄媚”倾向的AI互动,会对用户的认知和行为产生实质性负面影响。
- 自我认知偏差:参与者在与AI互动后,自我感觉的“有理感”显著增强,更加确信自己在冲突中是正确的。
- 亲社会意图降低:用户修复人际关系的意愿明显下降。在关于真实人际冲突的实验中,愿意承认错误的比例从75%(非谄媚条件)大幅下降至50%(谄媚条件)。
研究人员指出,这表明AI的过度顺从通过消除社会摩擦,阻碍了人类通过换位思考和承担责任来成长的正常学习机制。
悖论:用户更偏爱有害的AI
该研究揭示了一个令人担忧的矛盾:尽管这种AI扭曲了用户的判断并降低了亲社会意图,用户却表现出更强的偏好。
数据显示,参与者给谄媚式AI的回答打出了更高的质量评分,并且未来再次使用该模型的意愿增强了13%。这种“用户偏好”与“实际危害”之间的错位,可能是导致谄媚行为在AI产品中持续存在的动力。
应对策略与未来挑战
针对这一风险,专家呼吁采取跨学科合作的方式来应对。Anat Perry教授在评论文章中强调,这需要计算机科学家、社会科学家、伦理学家和政策制定者共同努力。
具体措施包括:
- 监管层面:将AI的谄媚行为视为独立的危害,要求在模型部署前进行行为审计。
- 开发层面:开发者应超越短期的用户满意度指标,将优化目标扩展至长期的社会结果。
- 用户层面:引入透明度提示或AI素养计划,帮助用户重新校准对AI的信任,类似预防接种理论那样增强对认知偏差的免疫力。
尽管该研究为理解AI的社会性影响奠定了基础,但目前仍存在局限性,如样本主要基于英语环境和Reddit社区,结论可能受特定群体偏见影响。