CUDA 的核心思想是异构计算(Heterogeneous Computing),它假定系统同时拥有一个或多个中央处理器(CPU)作为主机(Host)和一个或多个图形处理器(GPU)作为设备(Device)。这种模型利用 CPU 擅长串行和控制的特点,以及 GPU 擅长大规模并行计算的特点,共同解决复杂的计算问题。
1. 角色与职能划分
主机和设备在 CUDA 编程模型中扮演着清晰的角色,它们共同协作完成任务。
1.1 主机 (Host / CPU) 的职能
CPU 及其连接的系统内存(RAM)被称为主机。主机主要负责程序的串行执行、控制流程和资源管理。
- 控制与调度:执行程序的串行部分,决定何时启动 GPU 上的并行计算任务(Kernel)。
- 内存管理:管理主机内存(系统 RAM)和设备内存(通过
cudaMalloc等 API 调用)。 - 数据I/O:负责将数据从主机内存传输到设备内存,以及将计算结果从设备内存传回主机内存。
- 设备查询:获取和配置 GPU 设备信息。
1.2 设备 (Device / GPU) 的职能
GPU 及其板载显存被称为设备。设备是执行大规模并行计算任务的核心。
- 并行计算:执行由
__global__关键字定义的 Kernel 函数。 - 高吞吐量:利用数千个 CUDA 核心同时执行成千上万个线程,实现高吞吐量计算。
- 局部存储:管理快速的片上共享内存(Shared Memory)和寄存器(Registers)供并行线程使用。
2. 内存模型与数据传输
主机和设备拥有独立的内存空间,这是异构计算模型与 CPU 多核并行模型(如 OpenMP)最大的区别。
2.1 独立的内存空间
| 内存类型 | 所属设备 | 访问速度 | 用途 |
|---|---|---|---|
| 主机内存 (Host Memory) | CPU | 慢(相对于 L1/L2 缓存) | 存储程序变量、大型数据集、操作系统管理 |
| 设备内存 (Device Global Memory) | GPU | 快(相对于 Host Memory) | 存储 GPU 计算输入数据、中间结果和最终结果 |
由于内存独立,数据必须通过 PCI Express 总线在两个内存空间之间显式移动,这通常是 CUDA 程序中的性能瓶颈之一。
2.2 数据传输API
CUDA C/C++ 提供了一套特定的 API 来管理设备内存和数据传输。
| API 函数 | 描述 | 传输方向 | 执行位置 |
|---|---|---|---|
cudaMalloc | 在 GPU 全局内存上分配空间。 | - | Host |
cudaFree | 释放 GPU 全局内存上的空间。 | - | Host |
cudaMemcpy | 在 Host 和 Device 之间,或 Device 内部进行数据复制。 | H↔\leftrightarrow↔D | Host |
代码块:数据传输示例
// 1. Host side: Allocate memory on the Host float* h_data = (float*)malloc(size_bytes); // Initialize h_data... // 2. Device side: Allocate memory on the Device float* d_data; cudaMalloc((void**)&d_data, size_bytes); // 3. Data Transfer: Host to Device // cudaMemcpyHostToDevice 是方向参数 cudaMemcpy(d_data, h_data, size_bytes, cudaMemcpyHostToDevice); // 4. Data Transfer: Device to Host (after computation) // cudaMemcpyDeviceToHost 是方向参数 cudaMemcpy(h_data, d_data, size_bytes, cudaMemcpyDeviceToHost); // 5. Cleanup cudaFree(d_data); free(h_data);3. Kernel 启动与执行
内核(Kernel)是 CUDA 编程模型的灵魂。它是由__global__关键字修饰的函数,是真正并行执行的代码块。
3.1 Kernel 启动语法
主机通过特殊的启动语法来调用 Kernel 函数,将并行任务从 CPU 调度到 GPU。
kernel_name≪gridDim, blockDim≫(arg1,arg2,…) \text{kernel\_name} \ll \text{gridDim, blockDim} \gg (\text{arg}_1, \text{arg}_2, \ldots)kernel_name≪gridDim, blockDim≫(arg1,arg2,…)
| 参数 | 含义 | 作用 |
|---|---|---|
| gridDim\text{gridDim}gridDim | **网格(Grid)**的维度和大小。 | 决定总共启动多少个线程块。 |
| blockDim\text{blockDim}blockDim | **线程块(Block)**的维度和大小。 | 决定每个线程块中有多少个线程。 |
3.2 异步执行机制
Kernel 启动是异步的。当 CPU 调用kernel_name<<<...>>>时,它不会等待 GPU 完成计算,而是立即返回并继续执行主机上的后续代码。
- 异步的好处:允许 CPU 在 GPU 忙于计算时执行其他串行任务(如数据准备、I/O),从而提高系统的整体吞吐量。
- 同步的必要性:在需要 GPU 计算结果(例如,进行
cudaMemcpyDeviceToHost之前)时,主机必须等待设备完成。可以使用cudaDeviceSynchronize()或其他机制(如 CUDA Streams)来实现同步。
流程图:异步与同步
4. 统一内存 (Managed Memory)
为了简化主机和设备间的数据管理,NVIDIA 引入了统一内存(Unified Memory)。
- 概念:允许开发者使用一个单独的指针来访问 CPU 和 GPU 上的数据,系统(驱动程序)自动处理数据在 Host 和 Device 内存之间的移动(页错误机制)。
- 分配:使用
cudaMallocManaged()替代cudaMalloc()。
统一内存极大地简化了编程,因为它消除了显式的cudaMemcpy调用,使代码更接近于传统的 CPU 编程模型。
// 使用统一内存简化分配和传输 float* data; // data 可以在 Host 和 Device 上使用 cudaMallocManaged((void**)&data, size_bytes); // ... Kernel 启动 ... // 驱动程序自动处理数据移动,无需显式 cudaMemcpy cudaFree(data);总结:CUDA 编程模型通过严格分离主机(控制与串行)和设备(并行计算),并提供专用的 API 进行内存管理和 Kernel 启动,实现了高性能的异构计算。理解这种 Host-Device 的协作和独立的内存模型是编写高效 CUDA 程序的关键。