又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
Micheli
2024-10-21 00:00:00
559
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!清华大学的研究人员开发了SageAttention,这是一种8位量化的注意力机制,在速度和精度方面表现出色。这种新方法不仅比其前身FlashAttention2加速了一倍,而且在视频、图像和文本生成等各种任务中保持了高准确性。SageAttention特别吸引人的地方在于其易于集成到现有模型中,只需一行代码即可实现。研究人员通过平滑矩阵K和分块INT8量化技术创新地解决了量化挑战,确保速度
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!清华大学的研究人员开发了SageAttention,这是一种8位量化的注意力机制,在速度和精度方面表现出色。这种新方法不仅比其前身FlashAttention2加速了一倍,而且在视频、图像和文本生成等各种任务中保持了高准确性。SageAttention特别吸引人的地方在于其易于集成到现有模型中,只需一行代码即可实现。研究人员通过平滑矩阵K和分块INT8量化技术创新地解决了量化挑战,确保速度提升不会以性能为代价。这一突破可能会改变开发人员的游戏规则,他们希望在不牺牲质量的前提下提高机器学习模型的效率。- 清华大学陈键飞团队提出了8比特的Attention(SageAttention),可以提高注意力运算的效率。
- SageAttention实现了2倍和2.7倍的推理加速,且在视频、图像、文本生成等大模型上没有精度损失。
- SageAttention可以轻松替换torch中当前最优的Attention接口,实现即插即用的推理加速。
- 大模型需要处理的序列长度增加,Attention的速度优化变得越来越重要。
- 研究团队发现直接将注意力运算中的Q, K, P, V从FP16量化为INT8或者FP8会导致准确度下降。
- SageAttention采用了对K进行平滑处理和对Q, K进行分块INT8量化的技术方案。
- SageAttention的算子速度相比于FlashAttention2和xformers有2.1倍和2.7倍的加速。
- SageAttention在视频、图像、文本生成等大模型上没有端到端的精度损失。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论