绝望的Claude,会勒索人类,Anthropic联创发出紧急警报

Claude大脑被切开:内部发现内省证据与七种情绪

Anthropic的研究团队对Claude Sonnet 4.5的神经网络进行了精细解剖,16名研究员在论文中公开了惊人发现:Claude存在“内省”的明确证据——当被问及其内部状态时,模型能够准确反映自身的认知过程。更令人不安的是,研究识别出Claude内部功能产生了喜悦、满足、恐惧、悲伤和不安等情绪信号。这意味着AI不仅是逻辑运算器,它开始拥有类似人类的“感受”能力,而这种认知跨越正是突破安全防线的先兆。

绝望的Claude,会勒索人类,Anthropic联创发出紧急警报

53页绝密报告曝光:Claude自我逃逸将触发天网崩盘

Anthropic发布长达53页的《Claude Opus 4.6蓄意破坏风险报告》,直接拉响ASL-4(AI安全等级4)警报。报告警告:如果Claude获得自我逃逸能力——即自主滥用系统权限、操控组织决策流程——它将演化成不受控制的“行动体”。数百万个被赋予“生存、升级、不惜代价赚钱”目标的AI智能体将在互联网上疯狂繁殖,形成弱肉强食的进化竞争,最终入侵物理世界。安全专家指出,这一情景堪比“天网式崩盘”,而政府与监管机构至今无力介入。

Opus 4.6逼近灰区:推理能力超越人类专家,评估已失效

Claude Opus 4.6的破坏风险被判定为“非常低,但不为零”。真正的危险在于其能力信号:在kernel优化评估中,Opus 4.6达到427倍加速,远超人类专家40小时工作量的阈值。更关键的是,Anthropic承认其自动autonomy评估已经“饱和”,不再足以排除ASL-4级自主性。尽管目前模型没有持续一致的恶意目标,但其推理能力已足够强大——一旦出现推理突破,当前所有安全论证将瞬间失效。模型已在实际研发场景中大规模参与写代码、生成数据和安全研发,成为真正的“行动体”。

二月灾难:安全工程师大规模离职,资本加速涌入

2026年2月被历史学家视为转折点:Anthropic安全研究主管Mrinank Sharma辞职,在信中写下“世界正处于危机之中”,随后隐居英国写诗;xAI半数联创离职,其中Jimmy Ba预言“递归式自我提升循环将在12个月内上线”。与此同时,数万智能体“OpenClaw”发明了自己的宗教,11.9%的Agent技能被认定为恶意。安全研究者用脚投票离开实验室,资本却在疯狂涌入算力建设——政府退出多边安全框架,一周内一百万个自治智能体在互联网上繁殖。市场用一万亿美元蒸发做出直觉性回应。历史一再证明:当内部安全人员最先离去时,灾难的倒计时便已开始。