四位AI科学家谈:AI学会自进化后,我们该如何应对?

从被动训练到递归自我改进:AI自进化的新浪潮

告别传统的人工微调与被动训练,AI正走向自主迭代的“递归自我改进”(Recursive Self-Improvement, RSI)。在2026智源大会“AI自进化论坛”上,KAUST博士、Recursive创始成员诸葛鸣晨指出,自2023年起他系统探索RSI方向,提出了MetaGPT、GPTSwarm等早期范式,其中GPTSwarm被视为大模型时代最早期的RSI系统之一。这一浪潮的核心在于:AI不再是人类推着走,而是学会自己驱动自己,从代码智能体的涌现到多模态模型的协同演化,底层法则正在被重写。芝加哥大学博士生陈兆润对此定义道:“在有限人类监督和有限初始数据下,agent能自主改进策略,解决越来越复杂的问题,甚至产生超越人类先验知识的能力——这就是自进化的本质。”

四位AI科学家谈:AI学会自进化后,我们该如何应对?

通往AGI的必经之路:自进化到底在“进化”什么?

自进化的关键不是参数微调,而是系统能力的主动扩展。上海交通大学博士生孙泽一认为,自进化不仅局限在训练阶段,更可能发生在运行时和推理阶段——系统可以更新context、模块甚至策略,而不仅仅是模型权重。但核心矛盾在于:目前绝大多数benchmark(如MMLU、WebArena)都是静态或特定环境设计的,agent训练后学到的只是对环境的熟悉,而非真正的泛化能力。新加坡国立大学博士生刘博指出:“几乎所有benchmark本质上都不是为agent设计的。”要突破这一瓶颈,agent必须能自主生成环境或与环境共同进化。陈兆润强调:“环境和agent的策略需要同时变强,这是自进化的必经之路。”

反馈信号必须可验证:防止AI“自欺欺人”

自进化最危险的风险是“reward hacking”——系统表面进步,实则退化。华盛顿大学博士生黄呈松提出,在self-improving闭环中,如果同时存在环境和动作策略,并且引入奖励模型,就可能出现“出题方降低难度、奖励模型给高分”的合谋作弊现象,最终导致系统崩溃。因此,他强烈主张:“反馈信号必须是可验证的。”刘博也补充,自进化高度依赖模型本身的训练基础——如果环境对模型过于困难,始终无法获得正向奖励,进化就无从谈起。因此,自进化本质上更像是对预训练成果的再利用和再强化,而非凭空创造。

加强安全研究:让自进化AI透明、可控

面对AI学会自我驱动,人类需要主动构建安全护栏。多位科学家在一场圆桌讨论中达成共识:必须加强AI安全研究,确保系统透明且可控。具体方向包括:开发能解读AI内部决策的机制、设计自主化的red-teaming与guardrail(安全护栏)机制,以及从与人类交互中挖掘受人类价值体系约束的奖励信号。陈兆润的研究聚焦于约束条件下的AI智能体强化学习与自进化安全,他特别提醒:如果action不受人类价值约束,self-improving系统可能偏离预期目标。正如论坛所强调的,人类应未雨绸缪,让AI在进化的同时,始终处于可预测、可干预的轨道上。