用最酷的LR,训最猛的模型

阿里云创新中心> 创业资讯> 用最酷的LR,训最猛的模型
0
0

用最酷的LR,训最猛的模型

阎荟 2024-06-05 00:00:00 380
在文章"用最酷的LR,训最猛的模型"中,作者rumor深入探讨了优化学习率(LR)策略以训练强大机器学习模型的微妙之处。文章批判性地审视了常用的余弦衰减LR策略,并提出了Warmup-Stable-Decay(WSD)策略作为更友好的替代方案。此外,还探讨了随机权重平均(SWA)和无调度优化器(SFO)等创新方法。这些内容对于对训练大型语言模型(LLMs)的最新进展感兴趣的人来说非常重要,它们提供了关于有效LR策略的指导,这些策略可能带来更好的模型性能和更低的计算成本。

在文章"用最酷的LR,训最猛的模型"中,作者rumor深入探讨了优化学习率(LR)策略以训练强大机器学习模型的微妙之处。文章批判性地审视了常用的余弦衰减LR策略,并提出了Warmup-Stable-Decay(WSD)策略作为更友好的替代方案。此外,还探讨了随机权重平均(SWA)和无调度优化器(SFO)等创新方法。这些内容对于对训练大型语言模型(LLMs)的最新进展感兴趣的人来说非常重要,它们提供了关于有效LR策略的指导,这些策略可能带来更好的模型性能和更低的计算成本。- 在预训练中,batch size和learning rate是重要的超参数。 - Cosine decay的学习率策略对续训不友好,需要与训练步数一致。 - 清华的MiniCPM工作提出了WSD策略,即快速warmup后,一大段时间内使用固定学习率,在最后快速衰减到小的学习率。 - WSD策略在小尺寸模型上的收敛效果很好,甚至快速衰减后还可以超过cosine的表现。 - Cooldown策略的最优学习率是Cosine最优的一半,衰减长度在10%-20%之间较好,效果可以超过Cosine。 - 狠人选择不调LR的方法有Stochastic Weight Averaging和Schedule-Free Optimizer,但效果不如Cooldown或Cosine。 - 这些策略只在小尺寸模型上进行过验证,大模型的稳定收敛和Scaling Law生效还需要更多实验验证。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论