DeepSeek(@deepseek_ai)：在#开源周的第一天，我们很荣幸分享FlashMLA - 我们为Hopper GPU优化的高效MLA解码内核，适用于可变长度序列，并且已经投入生产使用。支持BF16，具有分页的KV缓存（块大小为64），内存带宽为3000 GB/s，性能达到580 TFLOPS。

DeepSeek(@deepseek_ai)：在#开源周的第一天，我们很荣幸分享FlashMLA - 我们为Hopper GPU优化的高效MLA解码内核，适用于可变长度序列，并且已经投入生产使用。支持BF16，具有分页的KV缓存（块大小为64），内存带宽为3000 GB/s，性能达到580 TFLOPS。

齐思GPT 2025-02-24 00:00:00 86

DeepSeek发布了FlashMLA，这是专为Hopper GPU设计的先进MLA解码内核。对于对高性能计算和人工智能感兴趣的人来说，这一发展非常重要，因为FlashMLA专为高效处理可变长度序列而设计。它支持BF16数值格式，这对深度学习应用至关重要。此外，引入了一个块大小为64的分页KV缓存，可能意味着在内存管理方面有显著改进。令人印象深刻的性能指标，内存绑定速度为3000 GB/s，处理能力为580 TFLOPS，表明FlashMLA可能成为GPU加速计算任务的颠覆者。这些内容对需要先进计算能力的开发人员和研究人员尤为重要。- FlashMLA是一种针对Hopper GPU进行优化的高效MLA解码内核 - FlashMLA适用于可变长度序列，并已投入生产 - FlashMLA支持BF16 - FlashMLA采用分页KV缓存，块大小为64 - FlashMLA具有3000 GB/s的内存带宽和580 TFLOPS的性能

登录后可评论

上一篇：Aaron Levie(@levie)：好吧，这有点疯狂。这是一个用人工智能在3小时内构建的基本飞行模拟器。通常制作游戏需要花费数月甚至数年的时间。世界即将变得非常疯狂。

下一篇：刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上一篇：Aaron Levie(@levie)：好吧，这有点疯狂。这是一个用人工智能在3小时内构建的基本飞行模拟器。通常制作游戏需要花费数月甚至数年的时间。世界即将变得非常疯狂。下一篇：刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中