DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世
阎荟
2025-02-26 00:00:00
119
DeepSeek发布了一款名为DeepGEMM的开源矩阵乘法库,专为加速Nvidia的Hopper GPU上的V3/R1训练和推断而设计。该库以其高效的FP8矩阵乘法而脱颖而出,利用了DeepSeek-V3中提出的缩放技术,并支持常规GEMM和MoE分组GEMM。令人瞩目的是,DeepGEMM不仅代码精简,仅有300行,而且在安装过程中无需编译,这要归功于其使用的CUDA。其性能值得关注,与专家调优的库相媲美甚至在某些情况下表现更优。
DeepSeek发布了一款名为DeepGEMM的开源矩阵乘法库,专为加速Nvidia的Hopper GPU上的V3/R1训练和推断而设计。该库以其高效的FP8矩阵乘法而脱颖而出,利用了DeepSeek-V3中提出的缩放技术,并支持常规GEMM和MoE分组GEMM。令人瞩目的是,DeepGEMM不仅代码精简,仅有300行,而且在安装过程中无需编译,这要归功于其使用的CUDA。其性能值得关注,与专家调优的库相媲美甚至在某些情况下表现更优。此外,有传言称DeepSeek可能在五月之前发布下一代R2模型,预计将增强代码生成能力并支持多种语言。DeepSeek靠近中国顶尖大学,并提供具有竞争力的薪酬福利,突显了其对人工智能研究和开发的承诺。DeepSeek的V3/R1对人工智能领域的影响巨大,引发了科技公司战略调整和消费者对生成式人工智能应用的探索。- DeepSeek开源通用矩阵乘法库DeepGEMM,300行代码加速V3、R1,R2将在五月前发布。
- DeepGEMM支持常规AI模型和MoE,提供了1350+ FP8 TFLOPS的计算性能。
- DeepGEMM采用了DeepSeek-V3中的细粒度scaling技术,支持普通GEMM和专家混合(MoE)分组GEMM。
- DeepGEMM的设计注重简洁性,仅包含一个核心内核函数,代码量仅为300行。
- DeepGEMM在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。
- DeepSeek计划在五月前发布下一代R2模型,希望新模型拥有更强大的代码生成能力,并能够推理除英语以外的语言。
- DeepSeek在北京设有办公室,梁文锋经常与工程师们深入研究技术细节,并乐于与实习生、应届毕业生一起工作。
- DeepSeek和幻方量化都以薪酬丰厚而闻名,幻方高级数据科学家年薪可达150万元人民币。
- DeepSeek在2020年和2021年斥资12亿元人民币建设了两个超级计算AI集群,全世界对于AI技术的期待进入高点。

版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论