GitHub - pcg-mlp/KsanaLLM

Micheli 2024-05-26 00:00:00 382

KsanaLLM是一个专为大型语言模型（LLMs）推理和服务而设计的高性能引擎，提供了速度和易用性的完美结合。它与流行的Hugging Face模型集成，并支持多种权重格式，确保开发人员的灵活性。该引擎针对像A10和A100这样的GPU卡进行了优化，并支持华为Ascend NPU，使其适用于不同的硬件设置。值得注意的是，它能够处理各种解码算法，并实现多GPU张量并行计算，这对于那些希望扩展其LLM应用程序的人来说可能是一个改变游戏规则的因素。KsanaLLM的开源性质以及与类似OpenAI的API服务器的兼容性可能会使其成为寻求有效部署LLMs的开发人员的有吸引力的选择。如果您从事机器学习，特别是自然语言处理，并正在寻找一种有效地提供LLMs的解决方案，那么KsanaLLM可能值得探索。- KsanaLLM是一个高性能且易于使用的LLM推理和服务引擎。 - 它利用了优化的CUDA内核，包括来自vllm、TensorRT-LLM和FastTransformer的高性能内核。 - 它通过PagedAttention对注意力键和值内存进行高效管理。 - 它对任务调度和内存利用进行了详细优化，支持动态批处理。 - 它支持前缀缓存。 - 它已在A10、A100等GPU卡上进行了充分测试。 - 它与Hugging Face模型无缝集成，并支持多种权重格式，如pytorch和SafeTensors。 - 它支持高吞吐量的服务，包括并行采样、波束搜索等解码算法。 - 它支持多GPU张量并行。 - 它支持流式输出。 - 它支持OpenAI兼容的API服务器。 - 它支持NVIDIA GPU和华为Ascend NPU。 - 它无缝支持许多经过验证的Hugging Face模型，包括LLaMA、Baichuan和Qwen等模型。 - 它支持的硬件包括Nvidia GPUs的A10和A100，以及华为Ascend NPUs的910B。 - 使用方法包括创建Docker容器和运行环境、克隆源代码、编译和运行。 - 可以进行推理测试和分布式部署。 - 可选的模型权重映射文件可以用于具有与Llama模型相同结构但具有不同权重名称的模型。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：GPU 利用率低常见原因分析及优化

下一篇：ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

上一篇：GPU 利用率低常见原因分析及优化下一篇：ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了