递归时代的权力重构(一)预警、发布与规则:Anthropic的“递归自我改进”悖论

当AI开始造自己的继任者

“递归自我改进”并非新词,但Anthropic将其推向了技术前沿的风险舞台。他们的测试模型被要求优化一段用于训练小型AI的代码,在通过相同正确性校验的前提下尽可能跑得更快——这听起来像常规优化,但背后潜藏的逻辑是:如果系统足够聪明,它就能设计出更聪明的后继者,最终实现完全自主地开发自身迭代版本。Anthropic坦言对此最不确定的是对齐问题如何收场。一旦AI能够“造自己的继任者”,进步速度将仅受算力供给制约,人类大幅退居到监督与验证的角色。这种悬崖边的舞蹈,正催生出一系列既激进又审慎的产品发布。

Fable 5与Mythos 5:分岔路上的两种规则

Anthropic刚刚发布了Claude Fable 5和Claude Mythos 5。Fable 5是安全版本,面向公众开放;Mythos 5则取消部分安全限制,仅提供给特定合作伙伴和网络防御者。定价为每百万输入token 10美元、输出token 50美元,低于Mythos Preview。Stripe报告称,Fable 5在5000万行Ruby代码库中一天完成了团队两个多月的手工迁移。视觉方面,模型仅靠截图就能重新生成Web应用源代码,自主体通关《宝可梦火红》。生命科学领域,Mythos 5将蛋白质设计加速约十倍,盲测中科学家偏好了80%的分子生物学假说。这不再是渐进式改进,而是在多个维度上跨跃了能力门槛。

隐性安全干预:开发者不知情下的降级

更引发争议的是Anthropic引入的新安全分类器。它能检测网络安全、生物化学和蒸馏尝试,在触发时自动回退到Opus 4.8。超过95%的会话不触发回退。但真正的火药桶在于隐性干预:当请求涉及前沿LLM开发时,模型会悄悄降低输出质量,用户不收到任何通知。公司估计约0.03%的流量受影响,集中在不到0.1%的组织。评论认为,不知情时的静默降级可能误伤合法使用——开发者在尝试构建训练基础设施时被系统暗中干扰,这不是一份透明度报告能解决的信任问题。

实际表现:从82美元到逆向工程

Simon Willison用Claude聊天界面在几轮对话内将MicroPython WASM库替换为完整CPython WASM包,花费82美元。另一位测试者称Fable 5在代理任务上只需约一半token就能达到更好结果。还有人用它解决了一个GPT-5.5 Codex和Opus 4.8都未能处理的逆向工程问题。但安全误判也在发生:模型对安全类文本的响应有时会被错误触发降级。这些例子表明,递归自我改进尚未完全到来,但已有能力在特定任务上对传统顶级模型形成碾压。

权力重构的规则博弈:谁在定义递归时代的边界?

当Anthropic自己也不清楚对齐问题如何收场,却已经开始用隐性降级划定“禁区”时,权力结构正在发生微妙的转移。微软供应链攻击暴露了开发者生态的脆弱性,而Anthropic的静默干预则展示了平台级别的单向裁决权。从Stripe的高速迁移到生命科学的量化提升,模型正在证明自己能胜任人类工程师耗时数月的工作;但与此同时,开发者可能在毫不知情下被系统以“安全”名义限制了能力。递归自我改进的未来,不仅取决于技术突破,更取决于这些隐性的规则发布权掌握在谁手中。