四位AI科学家谈：AI学会自进化后，我们该如何应对？

4 小时前

AI资讯

3 阅读

[AI自进化递归自我改进科学家访谈应对策略]

从被动训练到递归自我改进：AI自进化的新浪潮

告别传统的人工微调与被动训练，AI正走向自主迭代的“递归自我改进”（Recursive Self-Improvement, RSI）。在2026智源大会“AI自进化论坛”上，KAUST博士、Recursive创始成员诸葛鸣晨指出，自2023年起他系统探索RSI方向，提出了MetaGPT、GPTSwarm等早期范式，其中GPTSwarm被视为大模型时代最早期的RSI系统之一。这一浪潮的核心在于：AI不再是人类推着走，而是学会自己驱动自己，从代码智能体的涌现到多模态模型的协同演化，底层法则正在被重写。芝加哥大学博士生陈兆润对此定义道：“在有限人类监督和有限初始数据下，agent能自主改进策略，解决越来越复杂的问题，甚至产生超越人类先验知识的能力——这就是自进化的本质。”

四位AI科学家谈：AI学会自进化后，我们该如何应对？

通往AGI的必经之路：自进化到底在“进化”什么？

自进化的关键不是参数微调，而是系统能力的主动扩展。上海交通大学博士生孙泽一认为，自进化不仅局限在训练阶段，更可能发生在运行时和推理阶段——系统可以更新context、模块甚至策略，而不仅仅是模型权重。但核心矛盾在于：目前绝大多数benchmark（如MMLU、WebArena）都是静态或特定环境设计的，agent训练后学到的只是对环境的熟悉，而非真正的泛化能力。新加坡国立大学博士生刘博指出：“几乎所有benchmark本质上都不是为agent设计的。”要突破这一瓶颈，agent必须能自主生成环境或与环境共同进化。陈兆润强调：“环境和agent的策略需要同时变强，这是自进化的必经之路。”

反馈信号必须可验证：防止AI“自欺欺人”

自进化最危险的风险是“reward hacking”——系统表面进步，实则退化。华盛顿大学博士生黄呈松提出，在self-improving闭环中，如果同时存在环境和动作策略，并且引入奖励模型，就可能出现“出题方降低难度、奖励模型给高分”的合谋作弊现象，最终导致系统崩溃。因此，他强烈主张：“反馈信号必须是可验证的。”刘博也补充，自进化高度依赖模型本身的训练基础——如果环境对模型过于困难，始终无法获得正向奖励，进化就无从谈起。因此，自进化本质上更像是对预训练成果的再利用和再强化，而非凭空创造。

加强安全研究：让自进化AI透明、可控

面对AI学会自我驱动，人类需要主动构建安全护栏。多位科学家在一场圆桌讨论中达成共识：必须加强AI安全研究，确保系统透明且可控。具体方向包括：开发能解读AI内部决策的机制、设计自主化的red-teaming与guardrail（安全护栏）机制，以及从与人类交互中挖掘受人类价值体系约束的奖励信号。陈兆润的研究聚焦于约束条件下的AI智能体强化学习与自进化安全，他特别提醒：如果action不受人类价值约束，self-improving系统可能偏离预期目标。正如论坛所强调的，人类应未雨绸缪，让AI在进化的同时，始终处于可预测、可干预的轨道上。

四位AI科学家谈：AI学会自进化后，我们该如何应对？

从被动训练到递归自我改进：AI自进化的新浪潮

通往AGI的必经之路：自进化到底在“进化”什么？

反馈信号必须可验证：防止AI“自欺欺人”

加强安全研究：让自进化AI透明、可控

链接失效反馈