Transformers到SSM:二次知识到次二次模型的提取
Micheli
2024-08-21 00:00:00
392
在论文《Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models》中,作者介绍了一种名为MOHAWK的新方法,将高资源Transformer模型的知识提炼到更高效的状态空间模型(SSMs)中。这种方法解决了Transformer的二次时间自注意力在推断过程中可能成为瓶颈的挑战。
在论文《Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models》中,作者介绍了一种名为MOHAWK的新方法,将高资源Transformer模型的知识提炼到更高效的状态空间模型(SSMs)中。这种方法解决了Transformer的二次时间自注意力在推断过程中可能成为瓶颈的挑战。通过在不同粒度上匹配混合矩阵和隐藏单元,MOHAWK成功地将Transformer的能力转移到像Mamba-2这样的次二次模型上,用更少的训练数据实现了令人印象深刻的性能。对于那些对模型效率前沿和利用现有计算投资来训练新架构潜力感兴趣的人来说,这篇论文尤为重要。-Transformer体系结构主导语言模型化,但由于四分之一时间的自注意力,在推断中举步维艰。
-Mamba,一个次二次架构,显示出了希望,但已经用比Transformers更少的资源进行了预训练。
-MOHAWK可以将Transformers提炼为SSM等替代架构。
-Transformers和SSM在词元序列上应用不同的混合矩阵。
-MOHAWK通过在SSM中匹配粒度来逐步提取Transformers。
-MOHAWK可以使用3B代币提取Phi Mamba,使用5B代币提取混合Phi Mamba。
-尽管使用的数据较少,但Phi-Manba的性能优于非Transformer模型。
-MOHAWK允许SSM利用投资于训练Transformers的资源。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。