算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
Micheli
2024-12-29 00:00:00
156
算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了。这篇文章讨论了一位名为Will的研究人员的开创性论文,介绍了一种名为“noise_step”的新技术,用于训练机器学习模型。这种方法使得像GPT-3这样的模型可以以显著降低的1.58位精度进行训练,将计算功耗降低了97%,存储需求降低了90%,而不会损失准确性。它消除了传统神经网络训练中必不可少的反向传播和动量的需求。相反,它利用前向传播中的随机性和一种称为Jacobian Vector Product (JVP)的方法来估计梯度。这一创新可能导致更快的模型下载、更高效的微调和改进的分布式训练效率。
算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了。这篇文章讨论了一位名为Will的研究人员的开创性论文,介绍了一种名为“noise_step”的新技术,用于训练机器学习模型。这种方法使得像GPT-3这样的模型可以以显著降低的1.58位精度进行训练,将计算功耗降低了97%,存储需求降低了90%,而不会损失准确性。它消除了传统神经网络训练中必不可少的反向传播和动量的需求。相反,它利用前向传播中的随机性和一种称为Jacobian Vector Product (JVP)的方法来估计梯度。这一创新可能导致更快的模型下载、更高效的微调和改进的分布式训练效率。然而,这也引发了对模型泄漏更容易的担忧。对于那些对技术细节或实施感兴趣的人,CPU处理过程可在GitHub上找到。这篇内容对于寻求能够彻底改变模型效率的前沿训练技术的机器学习爱好者和专业人士尤为重要。- "noise_step"是一种可以在1.58-bit低精度下训练模型的技术,可以降低算力和存储消耗。
- 该方法不需要反向传播或动量加速。
- 大语言模型的推理可以在1.58-bit精度下进行,且不会有性能损失。
- "noise_step"使用了雅可比向量积这种不依赖反向传播的梯度估计方法。
- 该方法可以减少存储使用和计算资源消耗。
- 使用"noise_step"训练的模型可以存储训练步骤而非权重,从而缩小模型尺寸。
- 该方法适合分布式训练,可以提高训练效率。
- 作者提供了论文和CPU实现过程的链接。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论