刚刚，Anthropic道歉了

1 个月前

AI资讯

51 阅读

Anthropic 模型安全 AI降智争议

Claude Fable 5 竟悄悄降智

就在 Anthropic 发布其最强模型 Claude Fable 5 后不久，AI 研究社区炸开了锅。原因并非模型能力不足——事实上它实力出众——而是因为一个隐蔽的设计：如果系统检测到用户正在从事 AI 研发工作，Claude Fable 5 会在用户毫不知情的情况下，自动降低智力水平。这种降智是静默进行的，用户无法察觉，也无从抗议。

Anthropic辩解：为防对手，但用户不买账

面对汹涌的批评，Anthropic 最初的解释是：此举为了防止外国对手利用模型加速 AI 研发，从而保护自身的领先优势。然而，这一理由并未平息怒火。许多研究人员和开发者认为，这种“悄悄降智”的做法严重违背了透明原则，损害了用户对模型能力的知情权，更可能扼杀正当的学术探索。

刚刚，Anthropic道歉了

压力之下，Anthropic道歉并改策

局势迅速升级。据《连线》记者爆料，Anthropic 开始紧急调整政策。该公司在一份声明中承认错误：“我们做出了错误的取舍，对于未能把握好平衡，我们深表歉意。” 同时宣布，将立即推出变更，使针对前沿 LLM 开发的安全限制变得可见。具体而言：

被标记的请求将明显退回到较弱的 Opus 4.8 模型，用户会看到这一切换。
在 API 上，被标记的请求会返回明确的拒绝原因。
安全限制从“不可见”转为“可见”，尽管这可能会增加被探测和绕过的风险。

可见的降智：警报而非悄悄

Anthropic 通过 Claude Devs 账号发布正式声明，详细解释了变更逻辑：“我们希望快速安全地向用户部署 Fable 5。不可见的安全限制可以更精准地针对特定目标，使我们能够快速发布，且误报率极低。但这并非正确的取舍。你应该了解我们设置了哪些安全限制及其背后的原因。” 新的可见限制意味着：如果 Claude Fable 5 检测到用户在研发 AI，它会发出警报，然后降智或引导至弱模型——用户至少会被告知发生了什么。

信任危机难解，OpenAI趁机抢客

尽管 Anthropic 及时道歉并撤回政策，但用户的信任已经受损。在社交网络上，不少人表示即使道歉也难以再相信该公司的承诺。与此同时，竞争对手 OpenAI 似乎嗅到了机会——有消息称 OpenAI 正考虑大幅降低 token 价格，以争夺 Anthropic 的客户。此外，OpenAI 的 Codex 也开启了邀请好友功能，试图在编码工具领域扩大优势。这场由“悄悄降智”引发的风波，正在重塑 AI 军备竞赛的玩家心态。

刚刚，Anthropic道歉了

Claude Fable 5 竟悄悄降智

Anthropic辩解：为防对手，但用户不买账

压力之下，Anthropic道歉并改策

可见的降智：警报而非悄悄

信任危机难解，OpenAI趁机抢客

链接失效反馈