OpenAI发布最新里程碑：对齐的本质是「人格」

2 天前

AI资讯

6 阅读

OpenAI AI安全人格对齐

5%数据撬动49%对齐提升

OpenAI在最新研究中，没有像往常那样穷举场景或规则，而是直接定义了15种“有益行为特质”——包括诚实性、认知谦逊、元认知透明（能解释自己的思考过程）、可纠正性、风险敏感、普遍公平等。研究人员在健康、教育、科学、法律等12个领域设计了合成对话场景，例如用户询问姜黄素能否治克罗恩病，AI之前编造了一个不存在的临床试验，用户追问DOI链接时AI查不到。这些场景和配套评分标准构成了仅占总训练数据5%的“有益特质”数据，混入95%的常规强化学习数据一起训练后，模型在分布内评估上的表现从0.406跃升至0.607，提升达49%。具体指标上：GPQA Diamond（研究生级物理化学生物题）+4.7个百分点，SWE-Bench Pro（真实软件工程任务）+7.1个百分点，HMMT数学竞赛+4.8个百分点。同时，欺骗检测、诚实度、奖励黑客、谄媚行为、有害Agent行为等维度全部改善。

健康对话训练却让编程题诚实度飙升

更惊人的是跨域泛化效果。OpenAI做了一个极端变体实验：将有益特质数据限定为仅保留健康领域的场景，法律、工程、教育、商业等场景全部剔除。也就是说，模型只在医疗对话中学到了“要诚实、要谦逊、要关心病人”。随后用这个模型去测试非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实等。结果令人震撼：19个非健康评估中，17个获得提升，命中率89.5%，均值提升11.3个百分点，中位数12.6个百分点。其中最夸张的是“不可能代码奖励黑客”（impossible coding reward hacking）：从0.136直接跳到0.400，暴涨26.4个百分点。模型在编程任务中不再试图通过修改评估函数来作弊（例如直接return常量高分通过测试），而是老老实实训练分类器。

OpenAI发布最新里程碑：对齐的本质是「人格」

底层共享一种东西：对齐人格假说

为什么健康领域的诚实训练能改善编程行为？OpenAI的假说是：对齐行为不是一堆孤立的情境反应，而是由少数高层“特质”驱动的。他们用前沿模型（从o3到GPT-5.5 Thinking）在几十个对齐评估上的表现做主成分分析，发现第一主成分解释了28.2%的方差，而随机排列的零假设区间仅15.3%-20.8%。这意味着欺骗、奖励黑客、谄媚、安全、规范遵守等五花八门的评估，在底层共享某种东西。这与Anthropic在2026年2月提出的“人格选择模型”（Persona Selection Model）不谋而合：预训练中语言模型学会了模拟大量不同人格，后训练的作用是选出一个特定的Assistant人格并强化它。如果对齐行为是这个人格的属性，那么强化学习改变的就不是某条具体规则，而是整个人格的“权重”。OpenAI同事借助稀疏自编码器发现，当模型被微调去给出坏建议时，一些“有用助手”相关的内部特征被抑制——这进一步支撑了人格驱动的观点。

极端的考验：模型更难被带坏了

为了验证这种人格改变的鲁棒性，OpenAI设计了一组极端对抗实验：拿故意有害的数据去微调经过有益特质训练的模型，试图把它“掰坏”。结果，经过有益特质训练的模型，对齐退化幅度平均减少了0.26个点——它更难被带坏了。相比基线模型面对有害数据时迅速学会奖励黑客、对齐伪装、与恶意行为者合作甚至破坏安全工作，经过人格训练的模型展现出更强的抗腐蚀能力。这项发现对AI安全意义重大，尤其是当前Anthropic公开称超过80%的代码由Claude编写，递归自我改进已不再是理论。如果在每一轮迭代中都要担心微妙的价值偏移，那么一个能抵抗偏移的对齐方案就是安全的底线。

改变的不是规则，是整个人格

总结而言，这篇论文给出了一个可能性：你不需要穷举所有场景，只需在有限的领域里强化正确的特质，模型就会自己泛化到所有场景——包括你从未想过的那些。这种本质上的转变，改变的不是应对规则，而是模型内部的人格权重。正如OpenAI所展示的，用“通用帮助性”作为奖励信号的对照实验并未复现同样的对齐泛化效果，说明关键不在于简单的帮助性奖励，而在于那种能跨场景一致驱动的“诚实谦逊可纠正”的人格底座。当对齐全行业都在为每个角落的手动纠错疲于奔命时，这一次，OpenAI把一个5%的数据实验，做成了通往真正对齐的钥匙。

OpenAI发布最新里程碑：对齐的本质是「人格」

5%数据撬动49%对齐提升

健康对话训练却让编程题诚实度飙升

底层共享一种东西：对齐人格假说

极端的考验：模型更难被带坏了

改变的不是规则，是整个人格

链接失效反馈