DeepSeek-R1在CPU上的性能表现（671B，Unsloth 2.51bit，UD-Q2_K

DeepSeek-R1在CPU上的性能表现（671B，Unsloth 2.51bit，UD-Q2_K_XL）

齐思GPT 2025-02-17 00:00:00 1145

这篇内容详细分析了DeepSeek R1 (671B)模型在仅使用CPU设置下的性能，利用了Unsloth的量化技术。作者分享了关于不同CPU处理AI推断任务的实证数据，令人惊讶的发现是，2.51位量化不仅提供了更好的质量，而且与1.58位相比速度更快。特别值得注意的是性能表格比较了各种CPU，以及提到kTransformer相比仅CPU推断有显著的性能提升。此外，作者对社区贡献的开放态度以及探索减少活跃专家以增强性能的做法使得这篇内容对于那些对在CPU上优化AI模型推断感兴趣的人具有价值。使用STREAM内存带宽基准测试为测试方法增加了技术深度。如果您对AI性能优化感兴趣，或者正在考虑在CPU上本地运行DeepSeek R1，这篇分析可能会提供有用的见解。- DeepSeek-R1是一个使用MoE技术的CPU推理模型，性能表现良好。 - Xeon w5-3435X CPU的内存带宽为195GB/s，使用Q4参数可以达到10.5 tok/s的生成速度。 - Unsloth提供了1.58到2.51位的优化量化方案，2.51位的质量更好且速度更快。 - 在Xeon w5-3435X上，使用2.51位的生成速度为4.86 tok/s，而使用1.58位的速度为3.27 tok/s。 - CPU的计算性能对生成速度有影响，使用2.51位的速度更快。 - 使用kTransformer进行CPU推理，性能提升近2倍。 - GPU的VRAM限制了kTransformer的上下文长度。 - 其他CPU的性能测试结果尚未完成。 - STREAM内存带宽基准测试结果尚未获得。 - kTransformer的v0.3版本支持降低活跃专家的数量，提高性能但可能降低质量。

登录后可评论

上一篇：人工智能并不能解决真正需要帮助的地方的依赖性问题。

下一篇：DeepSeek-R1在CPU上的性能表现（671B，Unsloth 2.51bit，UD-Q2_K_XL）

上一篇：人工智能并不能解决真正需要帮助的地方的依赖性问题。下一篇：DeepSeek-R1在CPU上的性能表现（671B，Unsloth 2.51bit，UD-Q2_K_XL）