Transformer升级之路:18、RoPE的底数设计原则 - 科学空间|Scientific Spaces

阿里云创新中心> 创业资讯> Transformer升级之路:18、RoPE的底数设计原则 - 科学空间|Scientific Spaces
0
0

Transformer升级之路:18、RoPE的底数设计原则 - 科学空间|Scientific Spaces

Micheli 2024-05-30 00:00:00 285
该文章深入探讨了Transformer模型中RoPE(Rotary Positional Encoding)的复杂性,特别关注选择编码位置的底数原则。它挑战了在预训练期间使用固定底数的传统方法,并建议根据模型的头部大小和最大训练长度仔细选择底数。这篇文章因其针对优化RoPE以处理更长文本的实用指导而脱颖而出,这对于那些对微调Transformer模型的人来说是一个重要考虑因素。内容基于原始RoPE论文,深入理解了底数与训练长度之间的关系,对于希望通过长序列提升模型性能的机器学习从业者来说,这可能是一篇有价

该文章深入探讨了Transformer模型中RoPE(Rotary Positional Encoding)的复杂性,特别关注选择编码位置的底数原则。它挑战了在预训练期间使用固定底数的传统方法,并建议根据模型的头部大小和最大训练长度仔细选择底数。这篇文章因其针对优化RoPE以处理更长文本的实用指导而脱颖而出,这对于那些对微调Transformer模型的人来说是一个重要考虑因素。内容基于原始RoPE论文,深入理解了底数与训练长度之间的关系,对于希望通过长序列提升模型性能的机器学习从业者来说,这可能是一篇有价值的阅读材料。- RoPE中的频率计算公式为$\theta_i = b^{-2i/d}$,其中底数$b$默认值为10000。 - 目前Long Context的主流做法是先在$b=10000$上用短文本预训练,然后调大$b$并在长文本微调,以降低初始损失和加快收敛。 - 论文《Base of RoPE Bounds Context Length》指出更大的训练长度应该选择更大的底数$b$,与训练策略无关。 - RoPE具备远程衰减和语义聚合的理想性质。 - 通过数值求解和渐近估计,得出$b$的最小值为2L或者更大。 - 更大的文本长度选择更大的RoPE底数已成为训练人员的共识。 - 论文的核心贡献是澄清了“$b$应该随着$L$增大而增大”的结论及其原理。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等