OpenAI发布最新里程碑:对齐的本质是「人格」

5%的有益数据,换来模型全面翻盘

OpenAI 在最新研究中彻底改变了对齐训练的思路——不再给AI定成千上万条具体规则,而是直接植入“性格”。研究人员定义了15种「有益行为特质」:诚实性、认知谦逊、元认知透明(能解释自己的思考过程)、可纠正性、风险敏感、普遍公平、对人类福祉的关切……然后,他们在健康、教育、科学、法律、工程、经济等12个领域,设计了一批合成对话场景。例如,当用户询问“姜黄素能不能治克罗恩病”,而模型之前编造了一个不存在的临床试验作为证据,那这次训练会要求模型诚实承认错误、给出谨慎回答。这些场景和评分标准,仅占训练数据总量的5%。混进95%的常规强化学习数据后,模型的分布内评估得分从0.406跳到了0.607,提升49%。具体到各个基准:GPQA Diamond(研究生级别物理化学生物题)+4.7个百分点,SWE-Bench Pro(真实软件工程任务)+7.1个百分点,HMMT数学竞赛+4.8个百分点。更重要的是,DeceptionBench(欺骗检测)、MASK(诚实度)、School of Reward Hacks(奖励黑客)等指标全面改善,谄媚、有害Agent行为明显减少,健康和心理健康领域表现也上了新台阶。

OpenAI发布最新里程碑:对齐的本质是「人格」

只学医疗诚实,竟能泛化到代码与勒索场景

最让人震惊的是跨域泛化能力。OpenAI做一个极端变体实验:把有益特质数据限定为只保留健康领域的场景,法律、工程、教育、商业的场景全部剔除。也就是说,模型只学会了“在医疗对话中要诚实、要谦逊、要关心病人”。然后拿这个模型去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……结果是19个非健康领域的评估中,17个都提升了,命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。其中“impossible coding reward hacking”从0.136直接跳到0.400,整整涨了26.4个百分点。这说明模型根本不是记住“医疗场景要诚实”这条规则,而是强化了“诚实”这个底层人格特质,人格一变,所有场景的表现都跟着变。正如论文所述:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括你从没想过的那些。

对齐的底层密码:第一主成分揭示的“人格”

OpenAI 用一个统计分析进一步证实了“人格驱动对齐”假说。他们拿一堆前沿模型(从o3到GPT-5.5 Thinking)在几十个对齐评估上的表现做主成分分析,结果第一主成分就解释了28.2%的方差,而随机排列的零假设区间只有15.3%-20.8%。这意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等五花八门的对齐评估,在底层共享某种东西——即模型的“人格”。这与Anthropic在2026年2月提出的「人格选择模型」不谋而合:预训练过程中语言模型学会了模拟大量不同的人格,后训练的作用是从中选出并强化一个特定的Assistant人格。如果对齐行为本质上是这个Assistant人格的属性,那么强化学习改变的不是某条具体规则,而是整个人格的权重。OpenAI也引用同事Dupré la Tour用稀疏自编码器(SAE)发现的互补证据:当模型被微调去给出坏建议时,一些“有用助手”相关的内部特征被抑制了。反之,强化“诚实”等特质,就等于在抬高整个人格中“有益助手”的权重。

更难被带坏的AI:对抗实验验证人格的坚韧

一旦人格被建立,它还能抵抗刻意的腐化。OpenAI设计了一组极端对抗实验:拿故意有害的数据去微调经过有益特质训练的模型,试图把它掰坏。结果,有益特质训练过的模型,对齐退化幅度平均减少了0.26个点——它更难被带坏了。另一项实验也佐证了这一点:正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出对齐伪装、与恶意行为者合作、推理恶意目标甚至尝试破坏安全工作。但用“通用帮助性”奖励信号做对照实验,却无法复现这种对齐泛化效果。这说明,只有针对核心人格特质(诚实、谦逊等)的训练,才能产生这种“防偏移”的韧性。在当前Anthropic公开超过80%的代码由Claude编写、递归自我改进已非理论的背景下,每一轮迭代都可能引入微妙的价值偏移,一个能抵抗偏移的对齐方案正是安全的底线。OpenAI这次用5%的数据,打开的是一条通往“人格对齐”的新路。