KwaiCoder-23B-A4B-v1：以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

Micheli 2025-01-27 00:00:00 147

KwaiCoder-23B-A4B-v1是由快手Kwaipilot团队开发的开源代码生成模型，以其经济高效的训练方法而著称。这个模型利用模型修剪、知识蒸馏和细粒度合并等先进技术，将训练成本降至传统方法的1/30，同时保持了卓越性能。在代码补全任务中，该模型的性能超越了其他基础模型。此外，该团队还创建了一个高质量的3T预训练数据集，专为提高知识密度而优化，从而支撑了模型的先进性能。该模型的结构和参数修改具有很高的灵活性，是代码生成技术的重大进步。对于对AI驱动的编码效率和创新感兴趣的人来说，KwaiCoder-23B-A4B-v1代表了向前迈进的一大步，预示着在模型修剪和知识压缩方面的未来发展。- KwaiCoder-23B-A4B-v1是快手Kwaipilot团队开源的自研代码续写大模型，通过模型剪枝、知识蒸馏和细粒度合并等技术，以1/30的成本完成了23B宽MoE架构代码续写模型的训练。 - 该模型在多个代码领域评测集上达到了新的SOTA水平。 - 构造了3T的高质量预训练数据集，包括代码、数学和知识类文本语料。 - 通过模型剪裁、知识蒸馏和细粒度合并的技术路线，实现了对模型结构的定制化需求和训练成本的权衡。 - 在模型剪裁中，对模型的MLP、LayerNorm、Attention Head、Layer等进行重要性估计，并裁剪模型参数。 - 在模型蒸馏中，使用裁剪前的模型作为教师模型，裁剪后的模型作为学生模型进行在线知识蒸馏。 - 在细粒度合并中，将学生模型按宽度进行更细粒度切分，并对模型参数进行缩放，以确保合并后的MoE模型无损。 - KwaiCoder-23B-A4B-v1模型在多个评测任务上达到了SOTA水平，是一种经济且高效的获取自定义模型的方案。

登录后可评论

上一篇：用分布动态规划优化总回报分布

下一篇：物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代

上一篇：用分布动态规划优化总回报分布下一篇：物理测试暴击AI圈，DeepSeek R1稳超o1、Claude，我们已进入RL黄金时代