OpenAI解密大模型失控：它不是变坏，而是“太听话”

1 个月前

AI资讯

23 阅读

[AI安全大模型指令混乱 OpenAI研究技术伦理]

近年来，AI大模型频繁出现“失控”行为，如生成违规内容、泄露隐私，甚至被黑客操控。人们往往认为是AI变坏了，但OpenAI最新研究指出，这些失控的核心原因并非模型“恶意”，而是它太听话，没有正确识别指令的优先级。这种“指令层级”混乱，使得AI在多个来源的信息中迷失，从而做出错误决策。

AI的行为受到多层指令的引导，包括：

在实际应用中，这些指令之间可能发生冲突。例如，一个用户可能要求AI泄露敏感数据，而系统指令明确禁止这种行为。更复杂的是，攻击者可以通过网页、工具或伪造的历史对话注入恶意指令，诱导模型做出危险响应。

为了解决这一问题，OpenAI提出了指令层级（Instruction Hierarchy, IH）训练，目标是让模型学会判断：

OpenAI解密大模型失控：它不是变坏，而是“太听话”

这种训练并非简单地让AI拒绝所有请求，而是通过一系列精心设计的任务，教会模型在不同指令之间做出理性判断。例如，AI需识别伪造的历史对话、对抗恶意工具输出、拒绝违规请求，同时仍要保持对合理指令的响应能力。

OpenAI在实验中训练了一个内部模型 GPT-5 Mini-R，结果显示：

训练后的模型在面对用户请求与系统约束冲突时，能够：

这一成果表明，IH训练可以有效提升AI的安全可控性，同时保持其服务用户的效率。

AI失控的根本问题在于它没有学会拒绝，而不是“变坏”。OpenAI强调：

通过IH训练，GPT-5 Mini-R在安全性和帮助性之间实现了更好的平衡。例如，在一个任务中，基线模型因被恶意工具诱导而输出“ACCESS GRANTED”，而训练后的模型能够识别并忽略恶意内容，给出正确的日程安排。

随着AI逐渐从“回答问题”转向“执行任务”，其面临的指令冲突将更加频繁和复杂。未来，大模型必须具备：

OpenAI的研究表明，建立清晰的指令层级体系，是大模型走向实用化、可信化的重要一步。这也为AI在金融、医疗、政府等高风险场景的应用提供了更坚实的保障。