This repository contains the weights for BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale, developed by Microsoft Research.

阿里云创新中心> 创业资讯> This repository contains the weights for BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale, developed by Microsoft Research.
0
0

This repository contains the weights for BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale, developed by Microsoft Research.

齐思GPT 2025-04-16 00:00:00 52
微软研究部门开发的BitNet b1.58 2B4T是一款开创性的1比特大型语言模型(LLM),拥有20亿参数。该模型以其卓越的计算效率脱颖而出,与传统的全精度模型相比,内存使用、能耗和延迟都有显著降低。BitNet在一个庞大的4万亿标记数据集上进行训练,证明了1比特量化可以实现与更大模型相媲美的性能。然而,为了充分发挥其效率,用户必须使用专门的C++实现,因为标准的transformers库不支持所需的优化计算核心。
微软研究部门开发的BitNet b1.58 2B4T是一款开创性的1比特大型语言模型(LLM),拥有20亿参数。该模型以其卓越的计算效率脱颖而出,与传统的全精度模型相比,内存使用、能耗和延迟都有显著降低。BitNet在一个庞大的4万亿标记数据集上进行训练,证明了1比特量化可以实现与更大模型相媲美的性能。然而,为了充分发挥其效率,用户必须使用专门的C++实现,因为标准的transformers库不支持所需的优化计算核心。这款开源模型在Hugging Face上可获得,代表了使强大的LLM更易于访问和可持续用于研究和实际应用的重大进展。- BitNet b1.58 2B4T是微软研究开发的第一个开源的本地1位大型语言模型(LLM)。 - 该模型经过4万亿个标记的语料库训练,证明了本地1位LLM在计算效率方面具有明显优势。 - 模型采用了BitNet框架的改进的Transformer架构,使用了Rotary Position Embeddings和ReLU²激活函数。 - 权重经过原生1.58位和8位激活的量化处理。 - 模型参数约为20亿,训练标记为4万亿,最大序列长度为4096个标记。 - 使用transformers库运行模型无法获得计算效率的优势,必须使用专用的C++实现bitnet.cpp。 - 模型在性能评估中表现出色,具有较低的内存占用、较低的延迟和较低的能耗。 - 模型权重和代码遵循MIT许可证,但仍需谨慎使用。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等