Adam之后选哪个？浙大团队对23种优化器做了迄今最系统的评测

1 个月前

AI资讯

60 阅读

神经网络评测优化器 Adam

自适应优化器：从AdaGrad到Adam的进化之路

训练神经网络时，优化器的选择直接影响模型的收敛速度与最终性能。早期常用的SGD（随机梯度下降）虽能收敛到较优泛化边界，但学习率调节困难，收敛速度慢。为此，研究人员先后提出AdaGrad、RMSProp、AdaDelta等自适应学习率优化器，它们能针对不同参数动态调整学习率，极大提升了训练效率。Adam作为集大成者，融合了动量与RMSProp的优势，凭借快速收敛和超参数鲁棒性迅速成为业界默认选项。然而，Adam并非万能——其在某些任务上的泛化能力长期受到质疑。

Adam的软肋：泛化能力为何不敌SGD

尽管Adam收敛极快，但多项研究发现它在图像分类、自然语言处理等任务上的测试集泛化能力往往逊于适当调参的SGD。原因在于自适应学习率机制可能使模型陷入尖锐极小值，而SGD更倾向于平坦极小值，后者通常对应更强的泛化性能。这一矛盾催生了“两阶段训练”策略：先用Adam快速拉到最优附近，再切换SGD精细调优。但手动切换繁琐且依赖经验，业界亟需一种自动融合两者优势的新方案。

23种优化器大比武：浙大团队揭开性能全景图

为给社区提供系统参考，浙大研究团队选取包括Adam、SGD、AdaGrad、RMSProp、AdaDelta、Nadam、AdamW、LAMB、LARS、RAdam、Nero、AdaBelief、AdaBound等在内的23种优化器，在图像分类、自然语言理解、生成对抗网络、强化学习等10余个代表性任务上进行了公平、可重复的对比评测。评测覆盖了超参数敏感性、收敛速度、最终精度、训练稳定性及内存开销等维度。结果显示：没有任何一种优化器在所有场景下全面领先。例如：

Adam变体（如AdamW、RAdam）在多数任务上速度优势明显，但偶尔泛化落后于SGD；
AdaBound在Adam与SGD之间取得了出色平衡，在多个CV与NLP任务上同时实现了快速收敛与良好泛化；
SGD+余弦退火学习率调度在较长训练周期下仍是最强基线之一。

AdaBound：一个源自北大浙大的“两全其美”方案

评测中表现亮眼的AdaBound正出自北京大学与浙江大学研究团队（论文已被ICLR 2019收录）。该算法通过为Adam的每个参数学习率加上动态上下界，使其在训练初期近似Adam（快速探索），后期逐渐过渡为SGD（精细收敛），且超参数不敏感。浙大本次评测证实：AdaBound在多种任务中几乎无需调参即可获得与最佳SGD相当的泛化能力，同时保持Adam级别的训练速度。这一特性使其成为后Adam时代的重要候选。

选型指南：告别“一刀切”，拥抱场景化决策

浙大团队建议实践者根据具体需求选择优化器：

追求极速收敛与低内存：优先尝试AdamW或RAdam，并配合学习率预热；
追求巅峰泛化性能且训练资源充足：SGD配合精心设计的余弦退火调度仍是经典选择；
希望自动调参、兼顾训练效率与最终精度：AdaBound是当前已验证的稳健选项；
处理超大规模分布式训练：LAMB与LARS值得关注。

本次系统评测首次为深度学习社区提供了跨任务、跨算法的性能全景，标志着优化器选择正从经验主义走向数据驱动的科学决策。