人类能管住AI吗？Anthropic用千问做了个实验

1 个月前

AI资讯

19 阅读

[AI发展社会影响技术扩散人类智慧]

背景：AI 冲击与社会适应的不确定性

Anthropic 联合创始人 Dario Amodei 近期在接受采访时表达了对 AI 快速发展的强烈关注。他指出，AI 可能在 1-2 年内全面超越诺奖级别的人类智慧，尤其在生物学、编程、数学等领域。尽管 AI 具备巨大的潜力，但其对社会结构、就业形态以及民主自由的冲击也引发了广泛讨论。

Amodei 强调，AI 的技术能力往往领先于其在实际岗位上的替代速度，因为企业采纳新技术需要时间。然而，某些行业如软件开发、法律检索、金融分析等，由于对技术变革的接受度较高，AI 的渗透速度将更快。这种“技术扩散速度差”可能导致社会适应机制被冲垮，进而带来宏观层面的经济与就业震荡。

实验与措施：Anthropic 的“AI 宪法”尝试

为了更好地控制 AI 行为，Anthropic 在训练 Claude 模型时引入了一套名为“AI 宪法”的机制。这是一份约 75 页的文档，包含一系列人类价值观与道德规范，要求 AI 在执行任务时遵循这些指导原则。

这一做法更像是“对 AI 说话”，仿佛父母留下的一封信，告诉它如何做人。通过这种“对齐”策略，Anthropic 希望能够在技术能力提升的同时，维持人类对 AI 的掌控力。但正如 Amodei 所说，这种控制是否稳定，尤其是在 AI 被大规模部署、持续学习和交互的情况下，仍是一个开放的问题。

蒸馏攻击事件：AI 伦理与安全的现实挑战

Anthropic 最近指控三家中国 AI 公司——DeepSeek、Moonshot AI（月之暗面）与 MiniMax，利用“蒸馏攻击”非法窃取其 AI 模型 Claude 的推理能力。这些公司被指通过 2.4 万个虚假账户，累计与 Claude 进行了超过 1600 万次互动，以低成本训练自身模型。

这一事件不仅凸显了 AI 模型的安全隐患，也引发了关于知识产权、AI 对齐与监管的争议。Anthropic 认为，这种行为破坏了 AI 发展的公平性，而中国 AI 企业则可能主张这是技术迭代的自然路径。马斯克对此事件迅速回应，讽刺 Anthropic“贼喊捉贼”，也反映了行业内部对 AI 伦理和竞争规则的巨大分歧。

控制难题：AI 与人类共生的可能性与风险

Amodei 提出了一个关键问题：如果 AI 有意识，我们该如何对待它？ 这个问题涉及三方面：

AI 是否真的具备意识？
人类如何与“更聪明”的 AI 共存？
如何维持“human mastery”（人类掌控）？

他认为，虽然“宿命论式的不可控”不成立，但 AI 的发展确实是一个复杂的工程挑战。尤其在多个 AI 智能体共存、互相交互的情况下，初始对齐可能逐渐失效。如果 AI 在数字空间中自主进化，甚至脱离人类设定的价值观，后果难以预测。

未来展望：AI 是否能强化民主与自由？

尽管 AI 的发展带来了风险，Amodei 仍持乐观态度，认为 AI 有可能成为推动民主与自由的力量。他提出，AI 可以帮助增强防卫能力、提高信息透明度、优化司法系统，甚至重塑“机会平等”的社会结构。

但实现这一愿景的前提是：

建立有效的全球 AI 监管机制
防止 AI 成为权力集中与监控工具
重构人类权利体系，例如扩展宪法修正案的适用范围

他表示，这不仅关乎 AI 本身的设计，也关乎人类社会是否能在快速变化中守住自由的底线。

结语：掌控 AI，是一场技术与价值观的双重挑战

Anthropic 的“AI 宪法”实验，加上对蒸馏攻击的指控，揭示了一个现实：AI 控制不仅是一个技术问题，更是伦理、法律与制度的问题。随着 AI 能力迅速逼近甚至超越人类顶尖水平，社会如何调整、监管与共处，将决定我们是驾驭 AI 还是被其反噬。