DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了

模拟评审飙至8分:SKILL自主性飞跃

陈德里与两位AI“合著者”——DeepSeek-V4-Pro(负责文字)和GPT-Image-2(负责图像)共同完成的第二篇论文,主题为持续学习(continual learning)与自我迭代(self-iteration)。与首篇综述《From Copilots to Colleagues》不同,这次论文是DeliAutoResearch SKILL框架自身的一次重大迭代实验:模型首次尝试调用更高级的语言模型,自主设计并运行实验。由于arXiv不允许将AI列为作者,陈德里将实际承担了99%工作量的AI从作者栏移至脚注。整篇论文的生成过程仅需陈德里宏观把控,AI独立完成了文献分析、实验设计、结果论证与全文撰写。模拟同行评审给出的8分(首篇6分)直观证明了SKILL在质量上的跃升。

从6分到8分:生产数据揭示的进化密码

陈德里在社交平台上晒出了两篇论文生成过程的对比数据,揭示了SKILL内部架构的深刻变化。从第一篇到第二篇,交互轮数大幅下降,而总token消耗显著上升:人工介入变少了,系统自己想和做的部分变多了。这恰恰是走向更高自主性的积极信号——SKILL正在从“人类频繁指导”转向“独立多步骤推理”。更值得关注的是,陈德里直言不讳地表示,如果完全由自己亲自撰写,论文质量或许更高,但产出速度会大幅下降。“由于当前核心目标是持续迭代SKILL本身,我选择保留这篇论文中略显粗糙的部分,作为系统继续进化的反馈样本。”这种“以AI喂AI”的进化策略,让框架的每一代论文都成为下一代的训练数据。

DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了

持续学习与自我改进终将合流

论文的核心贡献在于统一了持续学习和自我改进两个长期被分头研究的方向。陈德里指出,传统研究中两者面对的是同一底层问题:模型如何在接收新信息或新目标后更新自己,同时不破坏已掌握的能力? 论文系统分析了100多篇论文,将方法归纳为五类:基于正则化的持续学习、回放与经验管理、参数高效与模块化方法、自我改进与自博弈、在线自适应方法。更重要的是,论文对自我改进在什么条件下能收敛而非发散进行了形式化分析,将自博弈、迭代蒸馏和Constitutional AI等分散的理论结果统一到同一框架之下。结论明确:下一代的LLM训练管线必然会把外部数据流和模型自生成训练信号结合起来,形成紧密耦合的反馈循环。

六大关键问题:通向AGI必须越过的深坑

论文最后指出了生成式模型持续学习走向成熟过程中亟待解决的六个关键问题,并基于系统分析提出了未来研究方向:

  • 大模型规模能否解决灾难性遗忘? 更大模型确实更不易遗忘,但规模不是根治方案。随任务持续增加,容量、干扰和对齐漂移问题仍会出现。未来需要研究规模如何影响稳定性-可塑性权衡。
  • 自我改进的理论极限:模型能否无限自我提升?缺少外部验证器时,语言任务极易陷入自我强化与确认偏差。这是核心理论问题。
  • 多模态持续学习:一个模态的更新可能影响另一模态。更新视觉生成能力可能影响语言理解;跨模态能力保留是难题。
  • 安全的持续对齐:任何更新都可能削弱原有对齐能力。未来需要“可证明安全”的持续对齐机制。
  • 部署时“实时学习”:实时服务要求低延迟,在线学习需梯度计算和参数更新,两者天然冲突。需设计分层更新机制。
  • 与Agent框架结合:智能体在长期任务中积累经验,何时写入长期记忆?何时更新参数?需层级记忆架构和多智能体持续学习机制。

不加干预的进化:AI写的论文,人只占1%

陈德里用两篇论文构建了一个完美的自我指涉闭环:第一篇综述《From Copilots to Colleagues》定义了AI科研自主性的L1-L5分级,并认为当前最好系统处于L4;第二篇论文则用L4级别的自主性(SKILL框架)完成了对持续学习领域的系统分析,并实现了从6分到8分的自我进化。更耐人寻味的是,陈德里本人仅贡献了约1%的宏观把脉与纠偏——99%的文献验证、LaTeX编写、画图改错全部由AI独立完成。他形容这是“个人暴论”:Code Agent正在让计算机科学论文发生疯狂通胀,过去同样的工作至少要花一个月。这场实验的终局预言清晰而冷峻:未来的AI系统不会长期停留在冻结参数的形态,而会演变为能够持续学习、自我更新、自我迭代的系统。而陈德里和他的SKILL,正在亲手加速这一天的到来。