KwaiCoder-23B-A4B-v1:以 1/30 的成本训练全尺寸 SOTA 代码续写大模型
Micheli
2025-01-27 00:00:00
147
KwaiCoder-23B-A4B-v1是由快手Kwaipilot团队开发的开源代码生成模型,以其经济高效的训练方法而著称。这个模型利用模型修剪、知识蒸馏和细粒度合并等先进技术,将训练成本降至传统方法的1/30,同时保持了卓越性能。在代码补全任务中,该模型的性能超越了其他基础模型。此外,该团队还创建了一个高质量的3T预训练数据集,专为提高知识密度而优化,从而支撑了模型的先进性能。该模型的结构和参数修改具有很高的灵活性,是代码生成技术的重大进步。
KwaiCoder-23B-A4B-v1是由快手Kwaipilot团队开发的开源代码生成模型,以其经济高效的训练方法而著称。这个模型利用模型修剪、知识蒸馏和细粒度合并等先进技术,将训练成本降至传统方法的1/30,同时保持了卓越性能。在代码补全任务中,该模型的性能超越了其他基础模型。此外,该团队还创建了一个高质量的3T预训练数据集,专为提高知识密度而优化,从而支撑了模型的先进性能。该模型的结构和参数修改具有很高的灵活性,是代码生成技术的重大进步。对于对AI驱动的编码效率和创新感兴趣的人来说,KwaiCoder-23B-A4B-v1代表了向前迈进的一大步,预示着在模型修剪和知识压缩方面的未来发展。- KwaiCoder-23B-A4B-v1是快手Kwaipilot团队开源的自研代码续写大模型,通过模型剪枝、知识蒸馏和细粒度合并等技术,以1/30的成本完成了23B宽MoE架构代码续写模型的训练。
- 该模型在多个代码领域评测集上达到了新的SOTA水平。
- 构造了3T的高质量预训练数据集,包括代码、数学和知识类文本语料。
- 通过模型剪裁、知识蒸馏和细粒度合并的技术路线,实现了对模型结构的定制化需求和训练成本的权衡。
- 在模型剪裁中,对模型的MLP、LayerNorm、Attention Head、Layer等进行重要性估计,并裁剪模型参数。
- 在模型蒸馏中,使用裁剪前的模型作为教师模型,裁剪后的模型作为学生模型进行在线知识蒸馏。
- 在细粒度合并中,将学生模型按宽度进行更细粒度切分,并对模型参数进行缩放,以确保合并后的MoE模型无损。
- KwaiCoder-23B-A4B-v1模型在多个评测任务上达到了SOTA水平,是一种经济且高效的获取自定义模型的方案。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论