AMD新论文颠覆认知:FP4训练不稳定,原因不是随机性不足
学界长期误判:FP4不稳定的“替罪羊”竟是随机性?
一直以来,低精度FP4训练中出现的崩溃和训练不稳定现象被归咎于随机性不足。研究人员普遍认为,更低的精度会导致梯度信息损失严重,模型无法通过足够的随机扰动弥合信息缺口,从而陷入局部最优或发散。然而,这一假设始终缺乏直接证据——崩溃的具体机制从未被彻底解析,相关优化策略也治标不治本。

新论文揭示真相:元凶是NLM效应与数值不稳定
AMD与宾夕法尼亚州立大学的联合研究彻底推翻了上述认知。论文通过系统性实验发现,FP4训练不稳定的主要原因并非与训练数据记忆相关的随机性缺失,而是源于两种被长期忽视的因素:NLM效应(指神经网络中的非线性映射放大微小数值误差)和数值不稳定性。在低精度条件下,权重与激活值的量化误差会随着前向传播逐层累积,少数异常值就可能触发梯度爆炸或消失,而NLM效应进一步将这种局部扰动扩散至整个网络。这种数值层面的溃败远比随机性不足更致命,且传统增加随机性(如噪声注入)的方法难以根本解决。
权重衰减的新解读:从简化模型到稳定数值
论文的另一个颠覆性结论涉及权重衰减的作用。过往理论认为权重衰减通过限制模型复杂度提高泛化能力,但AMD团队指出,在低精度训练场景下,权重衰减之所以有效,根本原因在于它缓解了数值不稳定性,而非简化了模型解。具体而言,权重衰减通过缩小权重范数降低了量化误差的放大倍数,从而抑制了NLM效应引发的数值震荡。这一发现意味着,针对低精度训练设计的正则化策略应当更侧重于数值鲁棒性而非模型稀疏性。
实验验证与意义:重新审视低精度训练策略
研究团队在多种主流模型(如ViT、BERT等)上进行了验证,结果表明:即使刻意增加随机性(例如提高Dropout率或梯度噪声),FP4训练的崩溃概率并未显著下降;而通过动态调整缩放因子或采用混合精度稳定性矫正方法,不稳定性指标可降低70%以上。该论文不仅为FP4训练不稳定提供了根本性解释,更指向一条全新的优化路径——未来低精度训练框架应优先解决数值精度冗余与非线性误差传播,而非盲目追求随机采样策略。这一认知转变有望加速低精度计算(如FP4甚至FP2)在边缘设备与大模型微调中的实际部署。