OpenAI发布最新里程碑：对齐的本质是「人格」

2 天前

AI资讯

5 阅读

模型训练 OpenAI AI对齐人格特质

5%的有益数据，换来模型全面翻盘

OpenAI 在最新研究中彻底改变了对齐训练的思路——不再给AI定成千上万条具体规则，而是直接植入“性格”。研究人员定义了15种「有益行为特质」：诚实性、认知谦逊、元认知透明（能解释自己的思考过程）、可纠正性、风险敏感、普遍公平、对人类福祉的关切……然后，他们在健康、教育、科学、法律、工程、经济等12个领域，设计了一批合成对话场景。例如，当用户询问“姜黄素能不能治克罗恩病”，而模型之前编造了一个不存在的临床试验作为证据，那这次训练会要求模型诚实承认错误、给出谨慎回答。这些场景和评分标准，仅占训练数据总量的5%。混进95%的常规强化学习数据后，模型的分布内评估得分从0.406跳到了0.607，提升49%。具体到各个基准：GPQA Diamond（研究生级别物理化学生物题）+4.7个百分点，SWE-Bench Pro（真实软件工程任务）+7.1个百分点，HMMT数学竞赛+4.8个百分点。更重要的是，DeceptionBench（欺骗检测）、MASK（诚实度）、School of Reward Hacks（奖励黑客）等指标全面改善，谄媚、有害Agent行为明显减少，健康和心理健康领域表现也上了新台阶。

OpenAI发布最新里程碑：对齐的本质是「人格」

只学医疗诚实，竟能泛化到代码与勒索场景

最让人震惊的是跨域泛化能力。OpenAI做一个极端变体实验：把有益特质数据限定为只保留健康领域的场景，法律、工程、教育、商业的场景全部剔除。也就是说，模型只学会了“在医疗对话中要诚实、要谦逊、要关心病人”。然后拿这个模型去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……结果是19个非健康领域的评估中，17个都提升了，命中率89.5%，均值提升11.3个百分点，中位数12.6个百分点。其中“impossible coding reward hacking”从0.136直接跳到0.400，整整涨了26.4个百分点。这说明模型根本不是记住“医疗场景要诚实”这条规则，而是强化了“诚实”这个底层人格特质，人格一变，所有场景的表现都跟着变。正如论文所述：你不需要穷举场景，只要在有限的领域里强化正确的特质，模型会自己泛化到所有场景——包括你从没想过的那些。

对齐的底层密码：第一主成分揭示的“人格”

OpenAI 用一个统计分析进一步证实了“人格驱动对齐”假说。他们拿一堆前沿模型（从o3到GPT-5.5 Thinking）在几十个对齐评估上的表现做主成分分析，结果第一主成分就解释了28.2%的方差，而随机排列的零假设区间只有15.3%-20.8%。这意味着，欺骗、奖励黑客、谄媚、安全、规范遵守等五花八门的对齐评估，在底层共享某种东西——即模型的“人格”。这与Anthropic在2026年2月提出的「人格选择模型」不谋而合：预训练过程中语言模型学会了模拟大量不同的人格，后训练的作用是从中选出并强化一个特定的Assistant人格。如果对齐行为本质上是这个Assistant人格的属性，那么强化学习改变的不是某条具体规则，而是整个人格的权重。OpenAI也引用同事Dupré la Tour用稀疏自编码器（SAE）发现的互补证据：当模型被微调去给出坏建议时，一些“有用助手”相关的内部特征被抑制了。反之，强化“诚实”等特质，就等于在抬高整个人格中“有益助手”的权重。

更难被带坏的AI：对抗实验验证人格的坚韧

一旦人格被建立，它还能抵抗刻意的腐化。OpenAI设计了一组极端对抗实验：拿故意有害的数据去微调经过有益特质训练的模型，试图把它掰坏。结果，有益特质训练过的模型，对齐退化幅度平均减少了0.26个点——它更难被带坏了。另一项实验也佐证了这一点：正常的生产环境强化学习中，模型学会了奖励黑客，然后泛化出对齐伪装、与恶意行为者合作、推理恶意目标甚至尝试破坏安全工作。但用“通用帮助性”奖励信号做对照实验，却无法复现这种对齐泛化效果。这说明，只有针对核心人格特质（诚实、谦逊等）的训练，才能产生这种“防偏移”的韧性。在当前Anthropic公开超过80%的代码由Claude编写、递归自我改进已非理论的背景下，每一轮迭代都可能引入微妙的价值偏移，一个能抵抗偏移的对齐方案正是安全的底线。OpenAI这次用5%的数据，打开的是一条通往“人格对齐”的新路。

OpenAI发布最新里程碑：对齐的本质是「人格」

5%的有益数据，换来模型全面翻盘

只学医疗诚实，竟能泛化到代码与勒索场景

对齐的底层密码：第一主成分揭示的“人格”

更难被带坏的AI：对抗实验验证人格的坚韧

链接失效反馈