在文章"用最酷的LR,训最猛的模型"中,作者rumor深入探讨了优化学习率(LR)策略以训练强大机器学习模型的微妙之处。文章批判性地审视了常用的余弦衰减LR策略,并提出了Warmup-Stable-Decay(WSD)策略作为更友好的替代方案。此外,还探讨了随机权重平均(SWA)和无调度优化器(SFO)等创新方法。这些内容对于对训练大型语言模型(LLMs)的最新进展感兴趣的人来说非常重要,它们提供了关于有效LR策略的指导,这些策略可能带来更好的模型性能和更低的计算成本。- 在预训练中,batch size和learning rate是重要的超参数。 - Cosine decay的学习率策略对续训不友好,需要与训练步数一致。 - 清华的MiniCPM工作提出了WSD策略,即快速warmup后,一大段时间内使用固定学习率,在最后快速衰减到小的学习率。 - WSD策略在小尺寸模型上的收敛效果很好,甚至快速衰减后还可以超过cosine的表现。 - Cooldown策略的最优学习率是Cosine最优的一半,衰减长度在10%-20%之间较好,效果可以超过Cosine。 - 狠人选择不调LR的方法有Stochastic Weight Averaging和Schedule-Free Optimizer,但效果不如Cooldown或Cosine。 - 这些策略只在小尺寸模型上进行过验证,大模型的稳定收敛和Scaling Law生效还需要更多实验验证。
评论