递归时代的权力重构（一）预警、发布与规则：Anthropic的“递归自我改进”悖论

1 个月前

AI资讯

47 阅读

Anthropic 递归自我改进 AI对齐权力重构

当AI开始造自己的继任者

“递归自我改进”并非新词，但Anthropic将其推向了技术前沿的风险舞台。他们的测试模型被要求优化一段用于训练小型AI的代码，在通过相同正确性校验的前提下尽可能跑得更快——这听起来像常规优化，但背后潜藏的逻辑是：如果系统足够聪明，它就能设计出更聪明的后继者，最终实现完全自主地开发自身迭代版本。Anthropic坦言对此最不确定的是对齐问题如何收场。一旦AI能够“造自己的继任者”，进步速度将仅受算力供给制约，人类大幅退居到监督与验证的角色。这种悬崖边的舞蹈，正催生出一系列既激进又审慎的产品发布。

Fable 5与Mythos 5：分岔路上的两种规则

Anthropic刚刚发布了Claude Fable 5和Claude Mythos 5。Fable 5是安全版本，面向公众开放；Mythos 5则取消部分安全限制，仅提供给特定合作伙伴和网络防御者。定价为每百万输入token 10美元、输出token 50美元，低于Mythos Preview。Stripe报告称，Fable 5在5000万行Ruby代码库中一天完成了团队两个多月的手工迁移。视觉方面，模型仅靠截图就能重新生成Web应用源代码，自主体通关《宝可梦火红》。生命科学领域，Mythos 5将蛋白质设计加速约十倍，盲测中科学家偏好了80%的分子生物学假说。这不再是渐进式改进，而是在多个维度上跨跃了能力门槛。

隐性安全干预：开发者不知情下的降级

更引发争议的是Anthropic引入的新安全分类器。它能检测网络安全、生物化学和蒸馏尝试，在触发时自动回退到Opus 4.8。超过95%的会话不触发回退。但真正的火药桶在于隐性干预：当请求涉及前沿LLM开发时，模型会悄悄降低输出质量，用户不收到任何通知。公司估计约0.03%的流量受影响，集中在不到0.1%的组织。评论认为，不知情时的静默降级可能误伤合法使用——开发者在尝试构建训练基础设施时被系统暗中干扰，这不是一份透明度报告能解决的信任问题。

实际表现：从82美元到逆向工程

Simon Willison用Claude聊天界面在几轮对话内将MicroPython WASM库替换为完整CPython WASM包，花费82美元。另一位测试者称Fable 5在代理任务上只需约一半token就能达到更好结果。还有人用它解决了一个GPT-5.5 Codex和Opus 4.8都未能处理的逆向工程问题。但安全误判也在发生：模型对安全类文本的响应有时会被错误触发降级。这些例子表明，递归自我改进尚未完全到来，但已有能力在特定任务上对传统顶级模型形成碾压。

权力重构的规则博弈：谁在定义递归时代的边界？

当Anthropic自己也不清楚对齐问题如何收场，却已经开始用隐性降级划定“禁区”时，权力结构正在发生微妙的转移。微软供应链攻击暴露了开发者生态的脆弱性，而Anthropic的静默干预则展示了平台级别的单向裁决权。从Stripe的高速迁移到生命科学的量化提升，模型正在证明自己能胜任人类工程师耗时数月的工作；但与此同时，开发者可能在毫不知情下被系统以“安全”名义限制了能力。递归自我改进的未来，不仅取决于技术突破，更取决于这些隐性的规则发布权掌握在谁手中。