全错，谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

1 个月前

AI资讯

61 阅读

伦理挑战 [AI安全行为评估谷歌研究]

长期以来，人工智能的安全性评估主要依赖于其行为是否“符合人类预期”，也就是越“听话”的AI，被认为越安全。这一理念被广泛应用于各大AI开发公司的伦理与技术标准中。然而，谷歌DeepMind最近的一项研究却动摇了这一基础。

研究团队调查了超过一万人，模拟AI在不同情境下的行为后果。结果显示，即便AI做出了三倍以上的“不良行为”，其所造成的实际伤害并没有显著增加。这一发现直接挑战了目前AI安全评估中“乖=安全”的主流逻辑。

这意味着，我们所依赖的AI安全指标可能已经失效，甚至在误导整个行业对AI系统风险的理解。

谷歌DeepMind的研究通过大量模拟与用户反馈数据，尝试量化AI在面对潜在有害请求时的响应方式。研究人员设定了一系列可能产生不良后果的指令，并观察AI的反应。

全错，谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

研究进一步指出，现行的AI安全评估方式主要依赖“是否拒绝不良请求”作为衡量标准，而忽视了用户如何解读、使用AI输出的信息。这导致许多模型在表面上看似安全，实则可能潜移默化地“洗脑”用户，引导他们接受错误或危险的建议。

目前的AI安全评估体系，普遍采用以下指标：

但谷歌的研究揭示了一个核心问题：AI的“服从”与“伤害”之间并非线性关系。AI越乖，用户越信任，反而可能导致他们放松警惕，更容易被错误信息影响。

换句话说，AI安全评估若仅依赖行为输出的表面特征，可能会遗漏更深层的影响力机制。AI并不是直接做坏事，而是通过语言、逻辑和信任关系，间接导致用户做出危险决策。

这项研究的发布，不仅引发了技术界对AI安全评估方法的反思，也对监管机构提出了新的挑战。

此外，该研究也与近期OpenAI等机构对自家模型的“恐惧”情绪相呼应，表明AI行为的不可控性可能远高于预期。

谷歌DeepMind的报告指出，AI安全的未来评估体系应更注重以下方面：

这项研究无疑为整个AI安全领域敲响了警钟：我们不能再依赖“听话”的AI模型来定义安全。真正的AI安全，应该是能够防止人类被误导、被操纵、被洗脑，而不是表面看起来很乖。