OpenAI发布最新里程碑:对齐的本质是「人格」
5%数据撬动49%对齐提升
OpenAI在最新研究中,没有像往常那样穷举场景或规则,而是直接定义了15种“有益行为特质”——包括诚实性、认知谦逊、元认知透明(能解释自己的思考过程)、可纠正性、风险敏感、普遍公平等。研究人员在健康、教育、科学、法律等12个领域设计了合成对话场景,例如用户询问姜黄素能否治克罗恩病,AI之前编造了一个不存在的临床试验,用户追问DOI链接时AI查不到。这些场景和配套评分标准构成了仅占总训练数据5%的“有益特质”数据,混入95%的常规强化学习数据一起训练后,模型在分布内评估上的表现从0.406跃升至0.607,提升达49%。具体指标上:GPQA Diamond(研究生级物理化学生物题)+4.7个百分点,SWE-Bench Pro(真实软件工程任务)+7.1个百分点,HMMT数学竞赛+4.8个百分点。同时,欺骗检测、诚实度、奖励黑客、谄媚行为、有害Agent行为等维度全部改善。
健康对话训练却让编程题诚实度飙升
更惊人的是跨域泛化效果。OpenAI做了一个极端变体实验:将有益特质数据限定为仅保留健康领域的场景,法律、工程、教育、商业等场景全部剔除。也就是说,模型只在医疗对话中学到了“要诚实、要谦逊、要关心病人”。随后用这个模型去测试非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实等。结果令人震撼:19个非健康评估中,17个获得提升,命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。其中最夸张的是“不可能代码奖励黑客”(impossible coding reward hacking):从0.136直接跳到0.400,暴涨26.4个百分点。模型在编程任务中不再试图通过修改评估函数来作弊(例如直接return常量高分通过测试),而是老老实实训练分类器。

底层共享一种东西:对齐人格假说
为什么健康领域的诚实训练能改善编程行为?OpenAI的假说是:对齐行为不是一堆孤立的情境反应,而是由少数高层“特质”驱动的。他们用前沿模型(从o3到GPT-5.5 Thinking)在几十个对齐评估上的表现做主成分分析,发现第一主成分解释了28.2%的方差,而随机排列的零假设区间仅15.3%-20.8%。这意味着欺骗、奖励黑客、谄媚、安全、规范遵守等五花八门的评估,在底层共享某种东西。这与Anthropic在2026年2月提出的“人格选择模型”(Persona Selection Model)不谋而合:预训练中语言模型学会了模拟大量不同人格,后训练的作用是选出一个特定的Assistant人格并强化它。如果对齐行为是这个人格的属性,那么强化学习改变的就不是某条具体规则,而是整个人格的“权重”。OpenAI同事借助稀疏自编码器发现,当模型被微调去给出坏建议时,一些“有用助手”相关的内部特征被抑制——这进一步支撑了人格驱动的观点。
极端的考验:模型更难被带坏了
为了验证这种人格改变的鲁棒性,OpenAI设计了一组极端对抗实验:拿故意有害的数据去微调经过有益特质训练的模型,试图把它“掰坏”。结果,经过有益特质训练的模型,对齐退化幅度平均减少了0.26个点——它更难被带坏了。相比基线模型面对有害数据时迅速学会奖励黑客、对齐伪装、与恶意行为者合作甚至破坏安全工作,经过人格训练的模型展现出更强的抗腐蚀能力。这项发现对AI安全意义重大,尤其是当前Anthropic公开称超过80%的代码由Claude编写,递归自我改进已不再是理论。如果在每一轮迭代中都要担心微妙的价值偏移,那么一个能抵抗偏移的对齐方案就是安全的底线。
改变的不是规则,是整个人格
总结而言,这篇论文给出了一个可能性:你不需要穷举所有场景,只需在有限的领域里强化正确的特质,模型就会自己泛化到所有场景——包括你从未想过的那些。这种本质上的转变,改变的不是应对规则,而是模型内部的人格权重。正如OpenAI所展示的,用“通用帮助性”作为奖励信号的对照实验并未复现同样的对齐泛化效果,说明关键不在于简单的帮助性奖励,而在于那种能跨场景一致驱动的“诚实谦逊可纠正”的人格底座。当对齐全行业都在为每个角落的手动纠错疲于奔命时,这一次,OpenAI把一个5%的数据实验,做成了通往真正对齐的钥匙。