刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

阎荟 2025-02-24 00:00:00 85

DeepSeek，一家以其机器学习加速专业知识而闻名的公司，最近通过开源FlashMLA技术成为头条新闻，这是一项旨在加速推理过程的核心技术。这项技术特别值得关注，因为它针对Hopper GPU进行了优化，能够用更少的资源处理更长的上下文推理，潜在地显著降低成本。该项目在发布后的45分钟内迅速积累了400多个GitHub星标，突显了技术社区的兴奋和FlashMLA的潜在影响。

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中。DeepSeek，一家以其机器学习加速专业知识而闻名的公司，最近通过开源FlashMLA技术成为头条新闻，这是一项旨在加速推理过程的核心技术。这项技术特别值得关注，因为它针对Hopper GPU进行了优化，能够用更少的资源处理更长的上下文推理，潜在地显著降低成本。该项目在发布后的45分钟内迅速积累了400多个GitHub星标，突显了技术社区的兴奋和FlashMLA的潜在影响。对于有兴趣部署这项技术的开发人员和研究人员，先决条件包括Hopper GPU、CUDA 12.3或更高版本以及PyTorch 2.0或更高版本。社区的积极反馈进一步突显了这一发布的重要性。这篇内容对于那些投身于机器学习领域并寻求提高推理效率的尖端工具的人来说尤为有价值。- DeepSeek开源了一款用于Hopper GPU的高效型MLA解码核：FlashMLA。 - FlashMLA针对可变长度序列服务进行了优化，具有快速的内存速度和计算上限。 - 部署该项目需要Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。 - 该项目收获了超过400个star，并且在截图时Star数量正在飙升。 - FlashMLA的用法包括获取MLA元数据、使用kvcache进行解码等。 - 该项目发布后获得了好评，有人开玩笑说第五天会是AGI。

上一篇：DeepSeek(@deepseek_ai)：在#开源周的第一天，我们很荣幸分享FlashMLA - 我们为Hopper GPU优化的高效MLA解码内核，适用于可变长度序列，并且已经投入生产使用。支持BF16，具有分页的KV缓存（块大小为64），内存带宽为3000 GB/s，性能达到580 TFLOPS。

下一篇：SurveyX：通过大型语言模型进行的自动化学术调查