Adam之后选哪个?浙大团队对23种优化器做了迄今最系统的评测

自适应优化器:从AdaGrad到Adam的进化之路

训练神经网络时,优化器的选择直接影响模型的收敛速度与最终性能。早期常用的SGD(随机梯度下降)虽能收敛到较优泛化边界,但学习率调节困难,收敛速度慢。为此,研究人员先后提出AdaGrad、RMSProp、AdaDelta等自适应学习率优化器,它们能针对不同参数动态调整学习率,极大提升了训练效率。Adam作为集大成者,融合了动量与RMSProp的优势,凭借快速收敛和超参数鲁棒性迅速成为业界默认选项。然而,Adam并非万能——其在某些任务上的泛化能力长期受到质疑。

Adam的软肋:泛化能力为何不敌SGD

尽管Adam收敛极快,但多项研究发现它在图像分类、自然语言处理等任务上的测试集泛化能力往往逊于适当调参的SGD。原因在于自适应学习率机制可能使模型陷入尖锐极小值,而SGD更倾向于平坦极小值,后者通常对应更强的泛化性能。这一矛盾催生了“两阶段训练”策略:先用Adam快速拉到最优附近,再切换SGD精细调优。但手动切换繁琐且依赖经验,业界亟需一种自动融合两者优势的新方案。

23种优化器大比武:浙大团队揭开性能全景图

为给社区提供系统参考,浙大研究团队选取包括Adam、SGD、AdaGrad、RMSProp、AdaDelta、Nadam、AdamW、LAMB、LARS、RAdam、Nero、AdaBelief、AdaBound等在内的23种优化器,在图像分类、自然语言理解、生成对抗网络、强化学习等10余个代表性任务上进行了公平、可重复的对比评测。评测覆盖了超参数敏感性、收敛速度、最终精度、训练稳定性及内存开销等维度。结果显示:没有任何一种优化器在所有场景下全面领先。例如:

  • Adam变体(如AdamW、RAdam)在多数任务上速度优势明显,但偶尔泛化落后于SGD;
  • AdaBound在Adam与SGD之间取得了出色平衡,在多个CV与NLP任务上同时实现了快速收敛与良好泛化;
  • SGD+余弦退火学习率调度在较长训练周期下仍是最强基线之一。

AdaBound:一个源自北大浙大的“两全其美”方案

评测中表现亮眼的AdaBound正出自北京大学与浙江大学研究团队(论文已被ICLR 2019收录)。该算法通过为Adam的每个参数学习率加上动态上下界,使其在训练初期近似Adam(快速探索),后期逐渐过渡为SGD(精细收敛),且超参数不敏感。浙大本次评测证实:AdaBound在多种任务中几乎无需调参即可获得与最佳SGD相当的泛化能力,同时保持Adam级别的训练速度。这一特性使其成为后Adam时代的重要候选。

选型指南:告别“一刀切”,拥抱场景化决策

浙大团队建议实践者根据具体需求选择优化器:

  • 追求极速收敛与低内存:优先尝试AdamW或RAdam,并配合学习率预热;
  • 追求巅峰泛化性能且训练资源充足:SGD配合精心设计的余弦退火调度仍是经典选择;
  • 希望自动调参、兼顾训练效率与最终精度:AdaBound是当前已验证的稳健选项;
  • 处理超大规模分布式训练:LAMB与LARS值得关注。

本次系统评测首次为深度学习社区提供了跨任务、跨算法的性能全景,标志着优化器选择正从经验主义走向数据驱动的科学决策。