硅谷大模型的“安全承诺”，正让世界失去安全感

1 个月前

AI资讯

12 阅读

[AI伦理技术监管安全承诺硅谷]

背景：从安全优先到现实妥协

自人工智能进入超大规模模型时代以来，安全问题一直是技术伦理的核心议题。Anthropic 作为硅谷中最早将“安全第一”写入企业DNA的AI公司之一，曾因其“负责任的缩放政策”（Responsible Scaling Policy, RSP）获得广泛赞誉。该政策承诺，如果无法证明新模型的安全性，公司将主动暂停训练更强大的AI系统。

这一理念源于Anthropic创始团队对AI失控的深切忧虑。其核心成员来自OpenAI，他们曾因担忧资本干预对安全承诺的侵蚀而离开原公司。然而，仅在数年后，Anthropic便在政治与商业的双重压力下，悄然放弃了这项曾被视为行业典范的承诺。

政治压力下的转折点

2026年2月，美国五角大楼向Anthropic施压，要求其在周五晚前（北京时间周六）解除Claude AI模型的所有军事用途限制，允许其应用于“所有合法目的”。国防部长皮特·海格塞斯（Pete Hegseth）采取强硬立场，表示若Anthropic拒绝配合，将动用《国防生产法》（Defense Production Act）强制其修改代码，或将其列为“供应链风险”，从而切断其与联邦机构的商业往来。

这并非简单的政策调整，而是对AI安全边界的一次直接挑战。Anthropic在压力下发布《负责任的扩展政策3.0》，正式放弃了2023年提出的“单边暂停模型训练”的誓言。这一事件标志着AI安全理想主义在现实面前的溃败。

Anthropic的立场变化包括：

不再单方面设定安全阈值
放弃无条件暂停模型训练的承诺
增强透明度机制，但弱化安全限制

商业竞争与替代方案

在Anthropic与五角大楼僵持期间，埃隆·马斯克旗下的xAI迅速与军方达成协议，允许其模型Grok进入机密系统，并全面接受五角大楼的使用条款。这无疑为Anthropic敲响了警钟。

与此同时，谷歌与OpenAI也在加速与五角大楼的谈判。尽管OpenAI的ChatGPT尚未进入敏感网络，但大门已经打开。在这样的竞争环境下，Anthropic如果坚持“安全优先”，将面临被边缘化的风险。

Anthropic若拒绝配合的潜在后果：

被列入“供应链风险”
丧失政府及企业级市场收入
面对来自xAI、OpenAI等竞争对手的替代威胁

“暂停键”的失效与安全幻灭

Anthropic曾在其政策中设下“暂停键”机制：一旦模型能力超越既定安全阈值且风险缓解措施未能到位，公司必须立即停止训练。这一机制被视为AI行业最具前瞻性的安全举措之一。

然而，在RSP 3.0中，这一机制已被删除。Anthropic首席科学官杰瑞德·卡普兰（Jared Kaplan）在接受采访时表示：“如果我们停下脚步，而竞争对手毫无顾忌地前进，这对于任何人都没有好处。”

这一转变被AI安全组织METR称为“分诊模式”（Triage mode）——即公司承认现有评估手段无法跟上模型能力增长的速度，只能在不断升级的风险中选择最不坏的应对方式。

分诊模式的含义包括：

安全机制滞后于模型发展
风险应对更加被动
优先考虑竞争和商业生存

影响与未来展望

Anthropic的立场变化不仅影响其自身发展，也对整个AI行业释放出一个信号：在国家利益与商业竞争面前，所谓的“安全承诺”正在变得脆弱。曾经试图为人工智能设置红线的理想主义者，正被现实逻辑重塑。

更令人不安的是，AI模型的军事化应用正在加速。从委内瑞拉的“马杜罗突袭”行动中Claude的深度参与可见，AI已经不仅仅是辅助工具，而是直接介入战略决策与执行的关键环节。

在通往人工超级智能（ASI）的路上，人类社会正逐步失去对技术发展的控制权。比机器失控更早到来的，是人类在面对技术狂飙时的集体无力。