清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
阎荟
2024-10-21 00:00:00
326
清华大学PACMAN实验室开发了一款名为MixQ的创新开源混合精度推理系统,其独特之处在于支持8位和4位混合精度推理。
清华大学PACMAN实验室开发了一款名为MixQ的创新开源混合精度推理系统,其独特之处在于支持8位和4位混合精度推理。该系统以近无损量化著称,能够在保持高准确性的同时显著提高推理吞吐量。MixQ通过量化权重和激活值,并巧妙地分解矩阵以将大部分数据存储在低位中,而将异常值存储在FP16中来实现这一目标。这种方法不仅保持了准确性,还通过减少与异常值相关的内存访问和计算成本来优化性能。
MixQ与其他系统的不同之处在于其实际应用,已被青城智能等公司采用。此外,其性能在SC'24会议上得到了认可。在速度方面,MixQ展现出了令人印象深刻的结果,超越了Bitsandbytes和AWQ等系统,推理吞吐量高达6倍。对于对机器学习领域感兴趣并希望提高模型效率的人来说,MixQ在混合精度推理方面的方法可能是值得探索的重大进展。- 清华大学计算机系PACMAN实验室发布开源混合精度推理系统MixQ
- MixQ实现大模型近无损量化并提升推理吞吐
- MixQ支持8比特和4比特混合精度推理
- MixQ同时量化权重和激活,使用低精度张量核心实现推理加速
- MixQ已支持多个主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等
- MixQ的设计基于离群点的局部性,通过等价变换、混合精度数据结构和高性能的混合精度算子提升系统性能
- MixQ在准确率和性能方面表现优秀,相对Bitsandbytes和AWQ加速分别为1.78倍和6倍
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论