HuggingFaceTB/SmolLM2-360M-Instruct · Hugging Face

阿里云创新中心> 创业资讯> HuggingFaceTB/SmolLM2-360M-Instruct · Hugging Face
0
0

HuggingFaceTB/SmolLM2-360M-Instruct · Hugging Face

齐思GPT 2024-11-07 00:00:00 229
HuggingFaceTB/SmolLM2-360M-Instruct模型代表了紧凑语言模型领域的重大进步。它是SmolLM2系列的一部分,包括各种规模的模型,其中这个特定模型拥有3.6亿个参数。这个模型的独特之处在于它能够执行各种任务,包括遵循指令、知识和推理,同时又足够高效以在本地设备上运行。 由Loubna Ben Allal等专家领导的团队开发,该模型已经在4万亿个标记上进行了训练,使用了包括FineWeb-Edu、DCLM、The Stack等在内的多样化数据集,即将发布更多策划数据集。该模型
HuggingFaceTB/SmolLM2-360M-Instruct模型代表了紧凑语言模型领域的重大进步。它是SmolLM2系列的一部分,包括各种规模的模型,其中这个特定模型拥有3.6亿个参数。这个模型的独特之处在于它能够执行各种任务,包括遵循指令、知识和推理,同时又足够高效以在本地设备上运行。 由Loubna Ben Allal等专家领导的团队开发,该模型已经在4万亿个标记上进行了训练,使用了包括FineWeb-Edu、DCLM、The Stack等在内的多样化数据集,即将发布更多策划数据集。该模型的instruct版本经过了监督学习和直接偏好优化的微调,增强了其在文本重写、摘要和函数调用方面的能力。 对于那些对实际应用感兴趣的人,该指南提供了如何使用Transformers库的简单说明,包括针对休闲和基于终端的交互的代码片段。该模型的性能也透明地通过各种指标进行评估,展示了其优势和局限性。 SmolLM2-360M-Instruct模型对于寻求在基于指令的任务中表现出色的强大而轻量级语言模型的开发人员和研究人员来说是一个值得关注的发展。其在多样化数据集上的训练以及包括微调技术使其成为各种自然语言处理应用的宝贵资产。- SmolLM2是一系列紧凑的语言模型,参数分别为135M、360M和1.7B。 - SmolLM2在指令遵循、知识和推理方面相较于前一版本SmolLM1有显著进展。 - 360M模型使用了4万亿个标记的多样数据集进行训练。 - 指令模型还支持文本重写、摘要和函数调用等任务。 - SmolLM2主要理解和生成英文内容,但生成的内容可能不总是准确、逻辑一致或不带有训练数据中的偏见。 - SmolLM2的架构是Transformer解码器,使用了64个H100 GPU进行训练。 - SmolLM2的训练框架是nanotron。 - SmolLM2的许可证是Apache 2.0。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论