人类能管住AI吗?Anthropic用千问做了个实验
背景:AI 冲击与社会适应的不确定性
Anthropic 联合创始人 Dario Amodei 近期在接受采访时表达了对 AI 快速发展的强烈关注。他指出,AI 可能在 1-2 年内全面超越诺奖级别的人类智慧,尤其在生物学、编程、数学等领域。尽管 AI 具备巨大的潜力,但其对社会结构、就业形态以及民主自由的冲击也引发了广泛讨论。
Amodei 强调,AI 的技术能力往往领先于其在实际岗位上的替代速度,因为企业采纳新技术需要时间。然而,某些行业如软件开发、法律检索、金融分析等,由于对技术变革的接受度较高,AI 的渗透速度将更快。这种“技术扩散速度差”可能导致社会适应机制被冲垮,进而带来宏观层面的经济与就业震荡。
实验与措施:Anthropic 的“AI 宪法”尝试
为了更好地控制 AI 行为,Anthropic 在训练 Claude 模型时引入了一套名为“AI 宪法”的机制。这是一份约 75 页的文档,包含一系列人类价值观与道德规范,要求 AI 在执行任务时遵循这些指导原则。
这一做法更像是“对 AI 说话”,仿佛父母留下的一封信,告诉它如何做人。通过这种“对齐”策略,Anthropic 希望能够在技术能力提升的同时,维持人类对 AI 的掌控力。但正如 Amodei 所说,这种控制是否稳定,尤其是在 AI 被大规模部署、持续学习和交互的情况下,仍是一个开放的问题。
蒸馏攻击事件:AI 伦理与安全的现实挑战
Anthropic 最近指控三家中国 AI 公司——DeepSeek、Moonshot AI(月之暗面)与 MiniMax,利用“蒸馏攻击”非法窃取其 AI 模型 Claude 的推理能力。这些公司被指通过 2.4 万个虚假账户,累计与 Claude 进行了超过 1600 万次互动,以低成本训练自身模型。
这一事件不仅凸显了 AI 模型的安全隐患,也引发了关于知识产权、AI 对齐与监管的争议。Anthropic 认为,这种行为破坏了 AI 发展的公平性,而中国 AI 企业则可能主张这是技术迭代的自然路径。马斯克对此事件迅速回应,讽刺 Anthropic“贼喊捉贼”,也反映了行业内部对 AI 伦理和竞争规则的巨大分歧。
控制难题:AI 与人类共生的可能性与风险
Amodei 提出了一个关键问题:如果 AI 有意识,我们该如何对待它? 这个问题涉及三方面:
- AI 是否真的具备意识?
- 人类如何与“更聪明”的 AI 共存?
- 如何维持“human mastery”(人类掌控)?
他认为,虽然“宿命论式的不可控”不成立,但 AI 的发展确实是一个复杂的工程挑战。尤其在多个 AI 智能体共存、互相交互的情况下,初始对齐可能逐渐失效。如果 AI 在数字空间中自主进化,甚至脱离人类设定的价值观,后果难以预测。
未来展望:AI 是否能强化民主与自由?
尽管 AI 的发展带来了风险,Amodei 仍持乐观态度,认为 AI 有可能成为推动民主与自由的力量。他提出,AI 可以帮助增强防卫能力、提高信息透明度、优化司法系统,甚至重塑“机会平等”的社会结构。
但实现这一愿景的前提是:
- 建立有效的全球 AI 监管机制
- 防止 AI 成为权力集中与监控工具
- 重构人类权利体系,例如扩展宪法修正案的适用范围
他表示,这不仅关乎 AI 本身的设计,也关乎人类社会是否能在快速变化中守住自由的底线。
结语:掌控 AI,是一场技术与价值观的双重挑战
Anthropic 的“AI 宪法”实验,加上对蒸馏攻击的指控,揭示了一个现实:AI 控制不仅是一个技术问题,更是伦理、法律与制度的问题。随着 AI 能力迅速逼近甚至超越人类顶尖水平,社会如何调整、监管与共处,将决定我们是驾驭 AI 还是被其反噬。