低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
Micheli
2024-12-29 00:00:00
262
在腾讯AI Lab的最新研究中,研究人员对大型语言模型(LLMs)的低比特量化进行了深入研究,挑战了低比特量化普遍有益的普遍观点。通过对1500多个LLM检查点的广泛分析,研究发现低比特量化对于未充分训练的模型比对完全训练的模型更为有效。这一发现非常关键,因为它表明在未充分训练的LLMs中观察到的低比特量化的性能优势并不能推广到完全训练的模型上。研究引入了量化诱导退化(QiD)的概念,作为衡量训练充分性的标准,并提出了预测低比特量化对不同大小和训练水平的LLMs影响的缩放定律。
在腾讯AI Lab的最新研究中,研究人员对大型语言模型(LLMs)的低比特量化进行了深入研究,挑战了低比特量化普遍有益的普遍观点。通过对1500多个LLM检查点的广泛分析,研究发现低比特量化对于未充分训练的模型比对完全训练的模型更为有效。这一发现非常关键,因为它表明在未充分训练的LLMs中观察到的低比特量化的性能优势并不能推广到完全训练的模型上。研究引入了量化诱导退化(QiD)的概念,作为衡量训练充分性的标准,并提出了预测低比特量化对不同大小和训练水平的LLMs影响的缩放定律。这项工作对于高效LLMs的开发和评估可能具有重要的影响,对于那些从事人工智能和机器学习的人来说,这是一篇值得阅读的文章。- 低比特量化和低比特大语言模型(LLM)能以更小的模型规模、更低的内存占用和更少的计算资源取得与fp16或bf16精度相当的性能表现。
- 低比特量化只有在未充分训练的LLM上才能取得与fp16/bf16相当的性能表现。
- 通过量化超过1500个不同大小和训练程度的开源LLM检查点,研究人员推演出了一套针对低比特量化的scaling laws。
- 充分训练的LLMs会遭受更大的量化导致的性能退化(QiD),而训练不足的LLMs则更容易实现近乎无损的低比特量化。
- 未经充分训练的LLMs往往会经历较大幅度的权重变化,这使得模型对量化所造成的偏离更为鲁棒。
- 低比特LLM也将很难在充分训练的情况下与fp16/bf16精度下的模型匹敌。
- 研究人员希望社区重新审视在未充分训练的LLMs上得到的结论,并引发更深入的思考与讨论。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。