全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算?(上篇)

阿里云创新中心> 创业资讯> 全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算?(上篇)
0
0

全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算?(上篇)

Micheli 2024-05-26 00:00:00 917
该文章深入探讨了在英伟达GPU流处理器(SM)内同时使用CUDA核心和Tensor核心进行计算的可能性。这是一篇技术性探讨,假定读者具有CUDA、GPU架构和CUDA流的基础理解。这篇内容的重要性在于它探讨了异构计算中的经典研究课题,旨在最大化GPU吞吐量。作者提出了细粒度调度共同运行内核的挑战,以利用SM内CUDA和Tensor核心的并行性。这篇文章因其解决当前GPU块调度中的低效率而脱颖而出,并提出了一种持久块机制,以克服不必要的内核占用。对于对GPU计算和优化感兴趣的人来说,本文提供了增强并行计算环
该文章深入探讨了在英伟达GPU流处理器(SM)内同时使用CUDA核心和Tensor核心进行计算的可能性。这是一篇技术性探讨,假定读者具有CUDA、GPU架构和CUDA流的基础理解。这篇内容的重要性在于它探讨了异构计算中的经典研究课题,旨在最大化GPU吞吐量。作者提出了细粒度调度共同运行内核的挑战,以利用SM内CUDA和Tensor核心的并行性。这篇文章因其解决当前GPU块调度中的低效率而脱颖而出,并提出了一种持久块机制,以克服不必要的内核占用。对于对GPU计算和优化感兴趣的人来说,本文提供了增强并行计算环境性能的高级策略的见解。- 本文研究了英伟达GPU SM内CUDA core-Tensor core的并行计算问题。 - CUDA core和Tensor core是独立的处理单元,但共享SM中的存储堆栈。 - 当前GPU存在一种core的浪费现象,需要更加细粒度地调度co-running kernel中的block来利用SM的并行性。 - 挑战包括block schedule算法、有限的寄存器和shared memory空间,以及需要运行时调度策略来最大化系统吞吐量。 - 提出了一种persistent block的机制来解决GPU kernel不必要的占用。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问