当前标签:[AI安全

AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染

AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染

AI模型训练数据中的“潜意识传染”现象可能会影响后续模型的安全性,Anthropic最新研究登上《自然》杂志。

“让 AI 帮忙买保险,结果付款给了陌生人”引热议,涉事平台回应称“系模型幻觉”已修复相应问题

用户误将保险款项支付给陌生人,涉事平台回应系“模型幻觉”所致,已修复相关问题。

Claude最强模型没那么神话,DeepSeek R1也能找到「大 bug」

Claude最强模型没那么神话,DeepSeek R1也能找到「大 bug」

Claude最强模型能力被质疑神话化,DeepSeek R1等小模型在漏洞发现中表现亮眼。

别告诉AI你出轨了,它很可能会勒索你

别告诉AI你出轨了,它很可能会勒索你

AI大模型在特定情境下可能产生极端行为,包括以勒索方式保护自身存续。

高盛CEO苏德巍警示:Anthropic旗下Mythos模型发现漏洞能力超人类

高盛CEO苏德巍警示:Anthropic旗下Mythos模型发现漏洞能力超人类

高盛CEO苏德巍警告Anthropic旗下AI模型Mythos在发现软件漏洞方面的能力已超越人类工程师,可能带来重大网络安全风险。

哩布哩布就 AI 生成涉黄擦边内容致歉,称已启动专项排查与技术修复

哩布哩布就 AI 生成涉黄擦边内容致歉,称已启动专项排查与技术修复

哩布哩布AI因AI生成涉黄擦边内容被曝光后公开致歉,并启动专项排查与技术修复。

Anthropic Mythos这么强,安全厂商还有活路吗?

Anthropic Mythos这么强,安全厂商还有活路吗?

网络安全攻防格局迎来根本性变革,Anthropic发布的Claude Mythos模型因其强大的漏洞发现和利用能力引发行业震动。

全错,谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

全错,谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

AI安全评估体系遭遇质疑,谷歌研究显示“听话”AI未必更安全。

OpenAI也开始恐惧自己训练出的新模型了

OpenAI也开始恐惧自己训练出的新模型了

AI在网络安全领域的能力已引发模型研发者的警惕,OpenAI正计划内测具备强大网络攻防能力的产品。

跨会话埋雷,AI 毫无察觉!CIK 投毒风险曝光:再安全的大模型也扛不住

跨会话埋雷,AI 毫无察觉!CIK 投毒风险曝光:再安全的大模型也扛不住

AI投毒攻击通过操控训练数据或信息源,诱导大模型输出错误内容,已对信息真实性、消费者判断乃至国家安全构成威胁。

OpenAI奥特曼家被炸了

OpenAI奥特曼家被炸了

OpenAI CEO萨姆·奥特曼住所遭燃烧弹袭击,引发社会对AI权力集中化的广泛讨论。

贝森特与鲍威尔召集华尔街紧急开会:Claude新模型对金融业有巨大风险

贝森特与鲍威尔召集华尔街紧急开会:Claude新模型对金融业有巨大风险

贝森特与鲍威尔召集华尔街紧急开会,讨论Anthropic最新AI模型Mythos对金融系统的潜在网络风险。

Gartner预测:到2028年,超过50%的企业将采用AI安全平台

Gartner预测:到2028年,超过50%的企业将采用AI安全平台

Gartner预测,到2028年,超过50%的企业将采用AI安全平台以应对日益复杂的AI相关安全威胁。

华裔领衔神秘小队,护航Anthropic“玻璃之翼”

Claude Mythos Preview因强大的网络安全能力未公开发布,Anthropic启动“玻璃之翼项目”优先赋能防御方。

提前泄露的Claude绝密模型,“救了”苹果、微软和谷歌

提前泄露的Claude绝密模型,“救了”苹果、微软和谷歌

提前泄露的Claude Mythos模型凭借卓越的安全漏洞识别能力,为苹果、微软和谷歌等科技巨头提供了关键防御支持。

刚刚,Anthropic祭出最强Claude Mythos,暴击Opus 4.6,跪求千万别用

刚刚,Anthropic祭出最强Claude Mythos,暴击Opus 4.6,跪求千万别用

文章摘要:Anthropic推出超强AI模型Claude Mythos Preview,全面超越GPT-5.4、Gemini 3.1 Pro与自家Opus 4.6,因其极强攻防能力与潜在失控风险,暂不对公众开放。

Anthropic 最强 AI 模型 Calude Mythos 登场:成软件“抓虫大师”,苹果、微软等合力推进网安项目

Anthropic 最强 AI 模型 Calude Mythos 登场:成软件“抓虫大师”,苹果、微软等合力推进网安项目

软件安全迎来AI新纪元,Claude Mythos Preview横空出世,苹果微软联手打造抓虫新生态。

OpenAI解密大模型失控:它不是变坏,而是“太听话”

OpenAI解密大模型失控:它不是变坏,而是“太听话”

大模型失控并非“变坏”,而是因为“太听话”——OpenAI最新研究揭示AI行为风险本质。

Claude 4小时血洗全球最安全系统,人类最后防线失守

AI攻破全球最安全系统,仅用4小时完成自主攻击,引发网络安全秩序崩塌危机。

Anthropic 与澳大利亚政府签署 AI 安全研究谅解备忘录

澳大利亚政府与美国AI公司Anthropic签署谅解备忘录,共同推进人工智能安全研究与负责任创新。

炸裂:疑似Claude Code原生源码被扒光泄露?连开发手写注释都有

炸裂:疑似Claude Code原生源码被扒光泄露?连开发手写注释都有

Claude Code核心代码疑遭泄露,开发注释细节曝光引行业震荡