IEITYuan/Yuan2-M32-hf · Hugging Face

阿里云创新中心> 创业资讯> IEITYuan/Yuan2-M32-hf · Hugging Face
0
0

IEITYuan/Yuan2-M32-hf · Hugging Face

齐思GPT 2024-05-31 00:00:00 271
Yuan2.0-M32是一款先进的Mixture-of-Experts(MoE)语言模型,以其高效和强大的性能脱颖而出。由IEITYuan开发并托管在Hugging Face上,该模型拥有400亿个参数,但由于其创新的Attention Router,仅使用37亿个活跃参数。这种路由器显著改善了专家选择,使准确率比传统路由器提高了3.8%。值得注意的是,Yuan2.0-M32在仅需相似规模密集模型9.25%的计算能力的情况下实现了这一点。在专业领域、编码和数学等方面,Yuan2.0-M32展现出卓越的能力

Yuan2.0-M32是一款先进的Mixture-of-Experts(MoE)语言模型,以其高效和强大的性能脱颖而出。由IEITYuan开发并托管在Hugging Face上,该模型拥有400亿个参数,但由于其创新的Attention Router,仅使用37亿个活跃参数。这种路由器显著改善了专家选择,使准确率比传统路由器提高了3.8%。值得注意的是,Yuan2.0-M32在仅需相似规模密集模型9.25%的计算能力的情况下实现了这一点。在专业领域、编码和数学等方面,Yuan2.0-M32展现出卓越的能力,甚至在MATH和ARC-Challenge等基准测试中超越了更大的Llama3-70B模型。对于开发人员和研究人员,Yuan2.0-M32提供了高性能和计算效率的有希望的结合,使其成为广泛的人工智能应用的潜在有价值的工具。- Yuan2.0-M32是一个混合专家(MoE)语言模型,有32个专家,其中有2个活跃。 - Attention Router是一种新的路由器网络,提高了模型的准确性。 - Yuan2.0-M32是从头开始训练的,使用了2000B个标记,训练计算量仅为密集模型的9.25%。 - Yuan2.0-M32在编码、数学和各种专业领域展示了竞争能力,仅使用了40B中的3.7B个活跃参数。 - Yuan2.0-M32在MATH和ARC-Challenge基准测试中超过了Llama3-70B,分别达到了55.9%和95.8%的准确率。 - Yuan2.0-M32模型的基本信息:总参数40B,专家32,活跃专家2,活跃参数3.7B,训练标记2000B,序列长度16K。 - Yuan2.0-M32模型在多个基准测试中表现出色,包括HumanEval、GSM8K、MMLU、Math和ARC-Challenge。 - Yuan2.0-M32模型的计算利用率相对较低,但准确率较高。 - 可以通过GitHub仓库获取更多信息。 - 使用该仓库中的源代码需要遵守Apache 2.0开源许可协议。 - Yuan2.0模型支持商业使用,不需要授权。 - 有问题可以通过air_service@ieisystem.com与我们联系。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论