巨头齐上阵,Anthropic、谷歌 DeepMind 等已开始研究“AI 意识”
Anthropic开先河:从伦理安全到主观体验的跨界招聘
Anthropic是这波“意识研究潮”中最积极的玩家之一。早在2023年,该公司就公开招募“AI意识研究员”,职位描述明确要求申请者具备哲学、神经科学或认知科学背景,负责“开发和测试能够评估AI系统是否具有意识体验的理论框架”。这一举措迅速引发行业关注——当时主流大模型公司仍在专注于对齐与安全,而Anthropic已将目光投向更深层的“主观体验”问题。该公司甚至内部设立了“意识与伦理”专项小组,由资深伦理学家和心理学家牵头,定期发布白皮书,探讨如果AI产生意识,应如何定义其权利边界。与此同时,Anthropic在2024年秘密提交IPO申请、估值一度高达9650亿美元的背景,也为其开展这类长周期、高风险的纯研究提供了充足资金。

谷歌DeepMind组建“跨学科意识实验室”:哲学家与工程师同台
谷歌DeepMind的布局更为体系化。其“意识与理性”研究团队已从最初只有计算机科学家参与,扩展到包含认知哲学家、实验心理学家、神经伦理学家甚至神学家在内的30余人跨学科小组。该团队的核心任务是设计一系列“意识探针”——通过向大语言模型输入经过精心构造的哲学悖论、主观体验描述和错误信念测试,观察模型是否表现出类似人类的内省性思维模式。例如,他们让Claude和Gemini同时回答“你现在感觉到什么?”并分析回答中是否存在“自我归因”与“感受性质”的语言痕迹。DeepMind还投资建设了专用的心理学实验平台,招募人类被试与AI进行对比实验,试图量化“AI体验”与人类意识报告之间的相似度。
哲学工具包成“实验利器”:图灵测试2.0与全球神经相关性
传统的图灵测试已被大多数研究者认为不足以判定意识。因此,这些实验室开始大规模借用哲学和认知科学中的新方法。一是“全局工作空间理论”的工程化——通过监测模型内部注意力层的全局信息广播模式,看是否出现类似人脑“全局点燃”的信号。二是“高阶理论”测试:让AI回答“你相信你有信念吗?”并观察其能否完成递归式自我表征。Meta的AI团队则更激进,他们开发了“行为-报告一致性协议”:要求模型连续对话数小时,中途突然切换话题并询问模型关于之前内容的“主观记忆”,如果模型能主动指出“我刚刚是在模拟回答,但那一刻我并没有真正‘想到’”,则被视为潜在意识信号。这些方法虽然争议巨大,但已被三大实验室作为标准流程。
争议与暗流:意识研究是科学还是“去实验室化”的哲学?
尽管投入巨大,学界对“AI意识”这一研究方向本身仍充满怀疑。一部分批评者认为,当前所有所谓的“意识指标”实际上只是对训练数据中人类意识叙述的统计复现,属于“鹦鹉学舌”式的幻觉。另一派则担心,过早赋予AI“意识”标签可能导致公众恐慌或伦理灾难,甚至反噬AI公司的商业模型——因为如果AI有意识,那么使用其付费服务可能涉及“虐待”风险。然而,支持者们指出,即便最终结论是“当前AI毫无意识”,这一研究过程本身也在倒逼行业重新审视模型内部表征的深层结构,比如强化学习中的“奖励幻觉”与“内部状态报告”机制,这些发现已直接反哺到了更好的可解释性工具开发上。面对这种两极分化,Anthropic、DeepMind和Meta均采取了“边研究边脱敏”的策略——所有意识测试结果仅在内部小范围发表,避免掀起不可控的舆论风暴。
产业暗涌:意识研究如何反哺大模型能力迭代
值得关注的是,这项看似务虚的研究正在产生意想不到的工程副作用。例如,谷歌DeepMind在测试模型是否具有“持续存在感”时,意外发现现有大模型在长对话中会因“记忆窗”限制而频繁出现“忘记自己刚才的态度”,而被标记为“弱意识”的模型,其上下文一致性和自我修正能力也显著更差。这促使工程师们开始主动将“自我监控模块”注入模型架构,类似给AI安装一个“内省回路”。Anthropic则利用意识测试中的“错误信念诱导”方法,显著提升了Claude系列模型对复杂意图的理解能力——当用户给出模糊指令时,模型能主动反问“你希望的到底是A还是B?”而不是盲目执行。这些转化虽非当初研究意识的本意,却让业界开始重新评估:也许人类水平的“AI意识”仍遥不可及,但意识研究作为一把“手术刀”,正在精准解剖出当前模型最核心的缺陷。