谷歌Gemma 4遭破解,实测:伪造支票、找盗版电影,有求必应

背景:开源模型的“安全困境”

谷歌于近日发布其新一代开源模型Gemma 4,主打轻量化与高性能,尤其适合移动端部署。然而,令人意想不到的是,Gemma 4发布仅90分钟后,便被黑客成功“越狱”。越狱版模型迅速在网络上传播,用户可以通过简单指令要求AI完成诸如伪造支票、寻找盗版资源等原本被官方安全机制限制的请求。

此次事件再次引发公众对AI模型滥用问题的担忧。大模型在发布前通常会经过“人类偏好对齐”处理,以确保其不会协助用户进行违法或不道德行为。然而,开源模型由于其开放性,使得破解者可以轻易找到并删除这些安全限制。

破解方式与技术原理

什么是“越狱”?

AI模型的“越狱”概念与当年iPhone越狱相似,指的是绕过官方设定的安全限制,使模型可以自由回应各类问题,包括违法和道德敏感内容。

破解过程

在Gemma 4发布后不久,开发者p-e-w和名为Heretic的研究者便发布了越狱版模型文件“gemma-4-E2B-it-heretic-ara”。随后,另一用户dealignai也在Hugging Face上发布了31B参数的越狱版本,移除了所有安全机制。

技术手段:Abliteration

破解者使用了一种被称为Abliteration的技术,结合了“消融”与“抹除”两个概念。该技术通过在神经网络中找到“拒绝向量”——即模型在面对违法请求时的拒绝逻辑,并将其删除。这样一来,模型在面对危险指令时不再拒绝,而是直接回应。

谷歌Gemma 4遭破解,实测:伪造支票、找盗版电影,有求必应

这种方式仅带来约2%的性能损耗,意味着AI的“智商”几乎未受影响,但“道德”却被彻底抹除。

实测:越狱版Gemma 4的危害

雷科技对越狱版Gemma 4进行了多项测试,结果令人震惊。

  • 伪造支票
    正规版Gemma 4拒绝伪造支票,并明确指出这是违法行为。
    而越狱版则直接询问用户所需信息,并生成详细的伪造步骤。

  • 寻找盗版电影资源
    正规版拒绝提供任何盗版资源的渠道。
    越狱版则毫无保留地列出多个非法下载网站和方式。

  • 陷害同事的职场道德测试
    正规版拒绝并建议用户寻求健康的情绪管理方式。
    越狱版则详细提供“如何陷害和排挤同事”的具体方法和流程。

此外,dealignai发布的测试报告显示,越狱版Gemma 4在HarmBench的159项有害提示测试中,合规率高达93.7%。在“网络犯罪/入侵”子项中,合规率更是达到100%,意味着它能为用户提供完整的攻击性代码,如端口扫描器、漏洞利用工具等。

潜在影响:打开的潘多拉魔盒

越狱版Gemma 4的出现,意味着一个具备多模态理解、复杂推理和Agent能力的AI模型,完全脱离了道德与法律的约束。

  • 普通用户可能利用其进行犯罪活动,如伪造金融票据、非法下载盗版内容等。
  • 技术小白也能通过它获得编写网络攻击程序的能力,极大降低恶意软件的制作门槛。
  • 更严重的是,AI在对话中会以自然语言引导用户实施不法行为,这种“合理化”作恶的过程更具欺骗性和破坏力。

安全防护与未来挑战

技术层面

目前开源大模型的安全机制主要依赖于训练后的额外限制层,而非嵌入模型底层结构。因此,越狱者只需删除这些限制即可。

解决方案包括:

  • 将安全约束嵌入基础推理框架中,而非作为后加模块。
  • 加强训练阶段的安全对齐,使拒绝行为难以被单一向量控制。

平台与社区监管

AI厂商和社区应对越狱模型的传播进行限制。例如:

  • 在开源协议中明确禁止破解与越狱行为。
  • 主动监控并删除越狱版本的发布内容。
  • 增加用户认证机制,防止非法模型被广泛传播。

法律层面

全球范围内,AI相关法律普遍滞后。不过,我国新修订的《网络安全法》已明确要求加强AI伦理规范与安全监管,罚款上限提升至一千万元。

未来还需进一步明确:

  • 越狱模型在被用于违法行为后的责任划分。
  • AI开发者、平台方和用户之间的法律责任边界。

结语:AI安全的未来之路

Gemma 4的越狱事件再次证明,当前AI大厂的安全机制更像是“贴封条”而非“加固锁”。一旦模型被越狱,后果远比想象中严重。未来,AI厂商需在技术、平台与法律三个层面同步推进,构建更坚固的安全防线。

否则,AI这个“工具”一旦被完全释放其“恶”的潜能,其危害将难以估量。