DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

阎荟 2025-02-26 00:00:00 161

DeepSeek发布了一款名为DeepGEMM的开源矩阵乘法库，专为加速Nvidia的Hopper GPU上的V3/R1训练和推断而设计。该库以其高效的FP8矩阵乘法而脱颖而出，利用了DeepSeek-V3中提出的缩放技术，并支持常规GEMM和MoE分组GEMM。令人瞩目的是，DeepGEMM不仅代码精简，仅有300行，而且在安装过程中无需编译，这要归功于其使用的CUDA。其性能值得关注，与专家调优的库相媲美甚至在某些情况下表现更优。此外，有传言称DeepSeek可能在五月之前发布下一代R2模型，预计将增强代码生成能力并支持多种语言。DeepSeek靠近中国顶尖大学，并提供具有竞争力的薪酬福利，突显了其对人工智能研究和开发的承诺。DeepSeek的V3/R1对人工智能领域的影响巨大，引发了科技公司战略调整和消费者对生成式人工智能应用的探索。- DeepSeek开源通用矩阵乘法库DeepGEMM，300行代码加速V3、R1，R2将在五月前发布。 - DeepGEMM支持常规AI模型和MoE，提供了1350+ FP8 TFLOPS的计算性能。 - DeepGEMM采用了DeepSeek-V3中的细粒度scaling技术，支持普通GEMM和专家混合（MoE）分组GEMM。 - DeepGEMM的设计注重简洁性，仅包含一个核心内核函数，代码量仅为300行。 - DeepGEMM在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优。 - DeepSeek计划在五月前发布下一代R2模型，希望新模型拥有更强大的代码生成能力，并能够推理除英语以外的语言。 - DeepSeek在北京设有办公室，梁文锋经常与工程师们深入研究技术细节，并乐于与实习生、应届毕业生一起工作。 - DeepSeek和幻方量化都以薪酬丰厚而闻名，幻方高级数据科学家年薪可达150万元人民币。 - DeepSeek在2020年和2021年斥资12亿元人民币建设了两个超级计算AI集群，全世界对于AI技术的期待进入高点。

登录后可评论

上一篇：Wan2.1标志着AI视频生成领域的重大进步，因为它是最新发布的面向公众开放的开源套件

下一篇：瑞典的Lovable，一个应用构建的AI平台，在取得惊人增长后筹集了1500万美元资金

上一篇：Wan2.1标志着AI视频生成领域的重大进步，因为它是最新发布的面向公众开放的开源套件下一篇：瑞典的Lovable，一个应用构建的AI平台，在取得惊人增长后筹集了1500万美元资金