【GPU】GPU架构入门指南 | GPU内部工作原理 | 执行过程 | 如何运行kernel | GPU与CPU有什么不同 | CUDA | Warp

大飞说科技

28 Nov 202319:24

Summary

TLDR本期视频深入探讨了GPU的工作原理及其与CPU的区别，强调了GPU在大规模并行计算中的优势。通过比较CPU和GPU的设计目标和架构，解释了GPU如何实现高吞吐量。详细介绍了GPU的内存层次结构和执行kernel的过程，包括线程网格的配置和动态资源分区。最后，强调了编写高效GPU kernel的重要性和挑战，鼓励程序员优化代码以提高GPU资源的利用率。

Takeaways

🔍 CPU和GPU的主要区别在于设计目标，CPU专注于顺序执行，而GPU专为大规模并行处理设计。
🚀 GPU在深度学习等领域的广泛应用推动了其重要性的提升，特别是在执行大量线性代数和数值计算任务时。
📈 与CPU相比，GPU在数值计算性能上有显著优势，如NVIDIA的Ampere A100在32位精度下的吞吐量远超Intel的24核处理器。
🌟 GPU的核心组件包括流式多处理器（SM）、核心、线程、片上内存和基于硬件的线程调度器。
🔧 GPU内存层次结构包括寄存器、常量缓存、共享内存、L1和L2缓存，以及片外全局内存，每一层都有特定用途。
🛠️ CUDA是NVIDIA提供的编程接口，用于编写在GPU上运行的程序，其中的核心概念是kernel。
🔗 在GPU上执行kernel需要数据从主机内存复制到全局内存，以及合理配置线程网格以实现并行计算。
🔄 GPU通过warp执行模型实现单指令多线程（SIMT），并引入独立线程调度以提高资源利用率。
⚙️ 动态资源分区和占用率是衡量GPU资源利用效率的关键指标，合理的资源分配对于保持高占用率和降低时延至关重要。
📊 编写高效的GPU kernel需要仔细优化代码，平衡资源使用和性能，以达到最佳执行效率。

Q & A

CPU和GPU的主要设计目标有何不同？
-CPU的设计初衷是执行顺序指令，而GPU则专门为大规模并行和高吞吐量而设计。
为什么GPU在深度学习中变得重要？
-GPU在深度学习中变得重要是因为它们能够以极高的速度执行大量线性代数和数值计算，这正是深度学习所需要的。
GPU的架构是如何实现高吞吐量的？
-GPU通过使用大量流式多处理器（SM）、核心或线程、以及多层不同类型的内存来实现高吞吐量。
在执行数值计算时，CPU和GPU的性能如何比较？
-CPU在执行单个数值计算时比GPU更快，但在需要进行大量数值计算时，GPU由于其强大的并行处理能力，将比CPU更快地完成任务。
什么是CUDA？
-CUDA是NVIDIA提供的编程接口，用来编写运行在其GPU上的程序。
GPU中的kernel是如何定义和执行的？
-在CUDA中，kernel是一个类似于C/C++函数的形式，用来表达在GPU上运行的计算。它在并行中操作向量形式的数字，这些数字作为函数参数提供给它。
线程块和线程在GPU中的作用是什么？
-线程块和线程是GPU执行kernel的基本单位。线程块由一个或多个线程组成，它们共同执行一个kernel函数，并且可以共享数据和同步操作。
warp是什么，它在GPU执行中扮演什么角色？
-warp是GPU中一组同时执行相同指令的线程。这种执行模型称为单指令多线程（SIMT），它使得GPU能够有效地利用所有可用计算资源，提高吞吐量。
动态资源分区在GPU中如何实现？
-动态资源分区是根据线程的需求和GPU的限制，在线程之间动态划分执行资源，如寄存器、共享内存等。这种方式比固定分区更能有效地利用GPU的计算资源。
如何衡量GPU资源的利用率？
-通常使用一个称为'占用率'的指标来衡量GPU资源的利用率，它表示分配给SM的warp数量与SM所能支持的最大warp数量之间的比值。
为什么GPU的占用率可能无法达到100%？
-由于GPU的执行资源有限，如寄存器、共享内存等，以及各种约束条件，实际应用中可能无法始终达到100%的占用率。