硅谷大模型的“安全承诺”,正让世界失去安全感

背景:从安全优先到现实妥协

自人工智能进入超大规模模型时代以来,安全问题一直是技术伦理的核心议题。Anthropic 作为硅谷中最早将“安全第一”写入企业DNA的AI公司之一,曾因其“负责任的缩放政策”(Responsible Scaling Policy, RSP)获得广泛赞誉。该政策承诺,如果无法证明新模型的安全性,公司将主动暂停训练更强大的AI系统。

这一理念源于Anthropic创始团队对AI失控的深切忧虑。其核心成员来自OpenAI,他们曾因担忧资本干预对安全承诺的侵蚀而离开原公司。然而,仅在数年后,Anthropic便在政治与商业的双重压力下,悄然放弃了这项曾被视为行业典范的承诺。

政治压力下的转折点

2026年2月,美国五角大楼向Anthropic施压,要求其在周五晚前(北京时间周六)解除Claude AI模型的所有军事用途限制,允许其应用于“所有合法目的”。国防部长皮特·海格塞斯(Pete Hegseth)采取强硬立场,表示若Anthropic拒绝配合,将动用《国防生产法》(Defense Production Act)强制其修改代码,或将其列为“供应链风险”,从而切断其与联邦机构的商业往来。

这并非简单的政策调整,而是对AI安全边界的一次直接挑战。Anthropic在压力下发布《负责任的扩展政策3.0》,正式放弃了2023年提出的“单边暂停模型训练”的誓言。这一事件标志着AI安全理想主义在现实面前的溃败。

Anthropic的立场变化包括:

  • 不再单方面设定安全阈值
  • 放弃无条件暂停模型训练的承诺
  • 增强透明度机制,但弱化安全限制

商业竞争与替代方案

在Anthropic与五角大楼僵持期间,埃隆·马斯克旗下的xAI迅速与军方达成协议,允许其模型Grok进入机密系统,并全面接受五角大楼的使用条款。这无疑为Anthropic敲响了警钟。

与此同时,谷歌与OpenAI也在加速与五角大楼的谈判。尽管OpenAI的ChatGPT尚未进入敏感网络,但大门已经打开。在这样的竞争环境下,Anthropic如果坚持“安全优先”,将面临被边缘化的风险。

Anthropic若拒绝配合的潜在后果:

  • 被列入“供应链风险”
  • 丧失政府及企业级市场收入
  • 面对来自xAI、OpenAI等竞争对手的替代威胁

“暂停键”的失效与安全幻灭

Anthropic曾在其政策中设下“暂停键”机制:一旦模型能力超越既定安全阈值且风险缓解措施未能到位,公司必须立即停止训练。这一机制被视为AI行业最具前瞻性的安全举措之一。

然而,在RSP 3.0中,这一机制已被删除。Anthropic首席科学官杰瑞德·卡普兰(Jared Kaplan)在接受采访时表示:“如果我们停下脚步,而竞争对手毫无顾忌地前进,这对于任何人都没有好处。”

这一转变被AI安全组织METR称为“分诊模式”(Triage mode)——即公司承认现有评估手段无法跟上模型能力增长的速度,只能在不断升级的风险中选择最不坏的应对方式。

分诊模式的含义包括:

  • 安全机制滞后于模型发展
  • 风险应对更加被动
  • 优先考虑竞争和商业生存

影响与未来展望

Anthropic的立场变化不仅影响其自身发展,也对整个AI行业释放出一个信号:在国家利益与商业竞争面前,所谓的“安全承诺”正在变得脆弱。曾经试图为人工智能设置红线的理想主义者,正被现实逻辑重塑。

更令人不安的是,AI模型的军事化应用正在加速。从委内瑞拉的“马杜罗突袭”行动中Claude的深度参与可见,AI已经不仅仅是辅助工具,而是直接介入战略决策与执行的关键环节。

在通往人工超级智能(ASI)的路上,人类社会正逐步失去对技术发展的控制权。比机器失控更早到来的,是人类在面对技术狂飙时的集体无力。