全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算？(上篇)

Micheli 2024-05-26 00:00:00 917

该文章深入探讨了在英伟达GPU流处理器（SM）内同时使用CUDA核心和Tensor核心进行计算的可能性。这是一篇技术性探讨，假定读者具有CUDA、GPU架构和CUDA流的基础理解。这篇内容的重要性在于它探讨了异构计算中的经典研究课题，旨在最大化GPU吞吐量。作者提出了细粒度调度共同运行内核的挑战，以利用SM内CUDA和Tensor核心的并行性。这篇文章因其解决当前GPU块调度中的低效率而脱颖而出，并提出了一种持久块机制，以克服不必要的内核占用。对于对GPU计算和优化感兴趣的人来说，本文提供了增强并行计算环境性能的高级策略的见解。- 本文研究了英伟达GPU SM内CUDA core-Tensor core的并行计算问题。 - CUDA core和Tensor core是独立的处理单元，但共享SM中的存储堆栈。 - 当前GPU存在一种core的浪费现象，需要更加细粒度地调度co-running kernel中的block来利用SM的并行性。 - 挑战包括block schedule算法、有限的寄存器和shared memory空间，以及需要运行时调度策略来最大化系统吞吐量。 - 提出了一种persistent block的机制来解决GPU kernel不必要的占用。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇："adammaj(@MajmudarAdam)" 意为推特用户adammaj的用户名为MajmudarAdam。

下一篇：GitHub-joye61/pic small:pic Small-智能压缩JPEG、PNG、WEBP、AVIF、SVG和GIF图像

上一篇："adammaj(@MajmudarAdam)" 意为推特用户adammaj的用户名为MajmudarAdam。下一篇：GitHub-joye61/pic small:pic Small-智能压缩JPEG、PNG、WEBP、AVIF、SVG和GIF图像