2020 February 06 cuda

矩阵乘法的 CUDA 实现、优化及性能分析

矩阵乘法 CPU 实现

\[A_{m \times k} \cdot B_{k \times n} = C_{m \times n}\]

CPU程序通过三层循环实现：

void matrixMulCpu(float* fpMatrixA, float* fpMatrixB, float* fpMatrixC,
int m, int n, int k)
{
    float sum = 0.0f;
    for(int i = 0; i < m; i++)
    {
        for(int j = 0; j < n; j++)
        {
            for(int l = 0; l < k; l++)
            {
                sum += fpMatrixA[i * k + l] * fpMatrixB[l * n + j];
            }
            fpMatrixC[i * n + j] = sum;
            sum = 0.0f;
        }
    }
}

计算次数为 $m \times n \times k$
时间复杂度为 $O(N^{3})$

获得 C 矩阵的计算方法都是相同的, 只不过使用的是矩阵 A、B 不同的元素来进行计算, 即不同数据的大量相同计算操作, 这种计算是特别适合使用GPU来计算, 因为GPU拥有大量简单重复的计算单元, 通过并行就能极大的提高计算效率.

矩阵乘法的 GPU 常规实现使用 Global Memory

在 GPU 中执行矩阵乘法运算操作：

在 Global Memory 中分别为矩阵 A、B、C 分配存储空间.
由于矩阵 C 中每个元素的计算均相互独立, NVIDIA GPU 采用的 SIMT (单指令多线程)的体系结构来实现并行计算的, 因此在并行度映射中, 我们让每个 thread 对应矩阵 C 中1个元素的计算.
执行配置 (execution configuration)中 gridSize 和 blockSize 均有 x(列向)、y(行向)两个维度. 其中,

\[gridSize.x \times blockSize.x=n\] \[gridSize.y \times blockSize.y=m\]

每个 thread 需要执行的 workflow 为：从矩阵 A 中读取一行向量 (长度为k), 从矩阵 B 中读取一列向量 (长度为k), 对这两个向量做点积运算 (单层 k 次循环的乘累加), 最后将结果写回矩阵 C.

CUDA的kernel函数实现如下：

__global__ void matrixMulGlobalKernel(float* pfMatrixA, float* pfMatrixB, float* pfMatrixC, int m, int n, int k)
{
    int nRow = blockIdx.y * blockDim.y + threadIdx.y;
    int nCol = blockIdx.x * blockDim.x + threadIdx.x;
    float fCVal = 0.0f;

    for(int i =0; i < k; i++)
    {
        fCVal += pfMatrixA[nRow * k + i] * pfMatrixB[i * n + nCol];
    }

    pfMatrixC[nRow * n + nCol] = fCVal;
}

下面来分析一下该 kernel 函数中 A、B、C 三个矩阵对 global memory 的读取和写入情况：

读取 Global Memory：

对于矩阵 C 中每一个元素计算, 需要读取矩阵 A 中的一行元素;

对于矩阵 C 中同一行的 n 个元素, 需要重复读取矩阵 A 中同一行元素 n 次;
对于矩阵 C 中每一个元素计算, 需要读取矩阵 B 中的一列元素;

对于矩阵 C 中同一列的 m 个元素, 需要重复读取矩阵 B 中同一列元素 m 次;

写入 Global Memory：

矩阵 C 中的所有元素只需写入一次.

由此可见：

对 A 矩阵重复读取 n 次, 共计 $m \times k \times n$次 32bit Global Memory Load操作;
对 B 矩阵重复读取 m 次, 共计 $k \times n \times m$次 32bit Global Memory Load操作;
对 C 矩阵共计 $m \times n$ 次 32bit Global Memory Store操作.

在上述分析中, 我们是将每一个 32bit 元素 (或者说每个thread)对 global memory 的访问 (access)独立对待的. 但实际情况是如此吗, 让我们来验证下：

假设矩阵规模为 $m=32, n=32, k=32$, 执行配置 blockSize=(32, 32, 1), gridSize=(1, 1, 1), 使用上述的 Kernel 函数进行计算, 在 NVVP 中 Memory Bandwidth Analysis 结果如下：

按照前面的计算方式, Global Memory Load 次数为 $32 \times 32 \times 32 \times 2=65536$ 次, Store 次数为 1024 次. 而 NVVP 显示的读取次数为 5120 次, 写入次数为 128 次, 这到底是为什么呢？

别有洞天之 Warp

GPU 编程中最重要的概念之一是 warp, 每个 warp 包含 32 个 thread, 而 GPU 的指令发射是以 warp 为最小单元的. 当 warp 中的一条指令发射一次, 称为 1 次 “transaction”, 重复发射一次, 称为 1 次 “reply”. 对于 Global Memory 的访问, warp 内的指令需要几次 transaction, 或者说是否会发生 reply, 取决于地址对齐及可合并访问的情况.

Global Memory 的读/写访问均是以 32 Byte 为单元的, 称为 1 个 segment, 即 1 transaction 可访问 32 Byte 数据 (我们假设 L1 cache 为 non-caching). 假设 1 个 warp 中的每个 thread 需要访问 1 个 32bit (=4 Byte)数据, 且访问地址是 32 Byte 对齐的, 则总共需要访问 4 个 segments, 即产生 4 次 transaction (即 3 次 reply)指令发射.

接下来我们重新分析矩阵乘法中Global Memory访问的情况：

Global Memory Load：对于 1 个 warp 中的 32 个 thread, 在每 1 次循环中, 需要读取矩阵 A 同一个元素 (1 次 transaction), 以及矩阵 B 连续的 32 个元素 (假设是理想的可合并访问的, 至少需要 4 次 transaction), 共发生 5 次 transaction (注意, 并不是前文的 $32+32$ 次). K 次循环总共需要 $k \times 5$ 次 transactions. 对于 $m \times n$ 个 thread, 共有 $m \times n \div 32$ 个 warp, 总共的 Global Memory Load Transaction 数目为：$m \times n \div 32 \times k \times 5$ (注意, 并不是前文的 $m \times n \times k \times 2$ 次).
Global Memory Store：矩阵 C 的写入过程中, 每个 warp 中的 32 thread 可连续写入 32 个 32bit 元素 (4次 transaction), 对于$m \times n$个 thread, 共有$m \times n \div 32$个 warp, 总共的 Global Memory Store Transaction 数目为：$m \times n \div 32 \times 4$次 transaction.

对于前面验证矩阵, 其规模为$m=32, n=32, k=32$, 执行配置blockSize=(32,32,1), gridSize=(1,1,1),

Global Memory Load Transaction数目为:

\[m \times n \div 32 \times k \times 5=32 \times 32 \div 32 \times 32 \times 5=5120\]

Global Memory Store Transaction数目为:

\[m \times n \div 32 \times 4=32 \times 32 \div 32 \times 4=128\]

我们的分析结果与 NVVP 中 GPU 实际执行结果是完全吻合的.

M/N/K/Blocksize 对计算性能的影响

测试平台为Tesla V100-PCIE 16GB + CUDA 9.1：

这里纵轴的GFlops（计算性能）反映的是矩阵计算的最好的计算性能，即在不停地重复该种矩阵计算时的性能峰值，其除以GPU的峰值性能极为GPU利用率。

结果分析：

随着矩阵规模增大，计算性能不断提升，到达峰值后又略有下降。在矩阵规模较小时，由于block数量不够多，无法填满所有SM单元，此时的性能瓶颈为Latency Bound（由于低Occupancy导致GPU计算资源的利用率低，延迟无法被很好的隐藏）；随着矩阵规模增加，block数量增加，每个SM中的active warps数量随之增大，此时Latency不再是性能瓶颈，转而受限于Memory Bound（过多的高延迟、低带宽的全局内存访问），在无法提升memory访问效率的情况下，性能无法进一步提升；
不同的blockSize对性能的影响不大（这里仅限于讨论88,1616,32*32三种情况）。究其原因，是因为我们选择的几种block维度设计（每行分别有8/16/32个thread），对1个warp内访问Global Memory时（Load或Store）transaction的数量没有变化（读者可以按照前面的方法自行推演一下，搞清楚为什么）

Shared Memory 优化

虽然 warp 内对 Global Memory 的访问均已最大的实现了合并访问，但在 A、B 矩阵的读取操作中仍然有很多重复访问，例如，对于矩阵 A 的读取操作，通过合并访问（32 个 thread 访问 Global Memory 的同一地址，合并为一次访问），实际重复读取次数是(n/32); 对于矩阵 B 的读取操作，通过合并访问（8 个 thread 访问 32 Byte 数据可合并为一次），实际重复读取次数为(m/8)次。

在不改变这种数据读取方式的前提下又如何优化性能呢？在GPU中除了 Global Memory 还有 Shared Memory，这部分 Memory 是在芯片内部的，相较于 Global Memory 400~600 个时钟周期的访问延迟，Shared Memory 延时小 20-30 倍、带宽高 10 倍，具有低延时、高带宽的特性。因此性能优化的问题可以转变为如何利用 Shared Memory 代替 Global Memory 来实现数据的重复访问。

Shared Memory 优化原理

如上图所示，使用 Shared Memory 优化 Global Memory 访问的基本思想是充分利用数据的局部性。让一个 block 内的 thread 先从 Global Memory 中读取子矩阵块数据（大小为 BLOCK_SIZE*BLOCK_SIZE）并写入 Shared Memory 中; 在计算时，从 Shared Memory 中（重复）读取数据做乘累加，从而避免每次都到 Global 中取数据带来的高延迟影响。接下来让子矩阵块分别在矩阵 A 的行向以及矩阵 B 的列向上滑动，直到计算完所有k个元素的乘累加。使用 Shared Memory 优化后的 kernel 代码如下所示：

__global__ void matrixMulSharedKernel_op1(float* fpMatrixA, float* fpMatrixB,
float* fpMatrixC, int m, int n, intk)
{
    int nRow = blockIdx.y * blockDim.y + threadIdx.y;
    int nCol = blockIdx.x * blockDim.x + threadIdx.x;
    float fCVal = 0.0f;

    __shared__ float shTileA[BLOCK_SIZE][BLOCK_SIZE];
    __shared__ float shTileB[BLOCK_SIZE][BLOCK_SIZE];

    int nIter = (k + BLOCK_SIZE - 1) / BLOCK_SIZE;
    for(int i = 0; i < nIter; i++)
    {
        // load data from global memory to shared memory
        shTileA[threadIdx.y][threadIdx.x] = fpMatrixA[nRow * k + i * BLOCK_SIZE + threadIdx.x];
        shTileB[threadIdx.y][threadIdx.x] = fpMatrixB[(i * BLOCK_SIZE + threadIdx.y) * n + nCol];

        // sync to wait for all threads in one block to finish loading datas
        __syncthreads();

        // sub-matrix multiply
        for(int l = 0; l < BLOCK_SIZE; l++)
        {
            fCVal += shTileA[threadIdx.y][l] * shTileB[l][threadIdx.x];
        }

        // sync to wait for all threads in one block to finish compute
        __syncthreads();
    }

    // store results into global memory
    fpMatrixC[nRow * n + nCol] = fCVal;
}

1 个 block 即看做 1 个子矩阵 C，且为方阵;
读取子矩阵 A 和子矩阵 B 的 Shared Memory 的大小均等于子矩阵 C 的维度大小;
子矩阵 A 在矩阵 A 的行向上移动 k/BLOCK_SIZE 次，子矩阵 B 在矩阵 B 的列向上移动 k/BLOCK_SIZE 次;
每个 thread 的计算过程，由原来的单层 k 次循环，变为了两层循环：外层循环次数为 k/BLOCK_SIZE（假设能够整除），其任务是从 Global Memory 读取数据到 Shared Memory; 内存循环次数为 BLOCK_SIZE，其任务是读取 Shared Memory 中的数据做乘累加计算;
有 2 次 __syncthreads() 操作：第一次表示同步 Shared Memory 中数据写入之后，在进入计算之前，保证block内所有Shared Memory中数据已更新; 第二次表示同步计算之后以及 Shared Memory 写入之前，保证 block 内所有 thread 的计算已完成，可以进行 Shared Memory 的数据更新。

Shared Memory 性能分析

不同的blockSize(x,y)以及不同m/n/k对性能的影响，测试平台为Tesla V100-PCIE 16GB + CUDA 9.1：

随着矩阵规模增大，计算性能不断提升，到达峰值后又略有下降——这与未优化前使用 Global Memory 时的性能分析结果一致；
不同 blockSize 对性能影响很大。外层循环中从 Global Memory 读取数据写入到 Shared Memory 时，无论是读取 A 矩阵或 B 矩阵，当 warp 的组织形式（行x列）为 8x4 或 16x2，对于 Global Memory 的 load 操作，均可实现 32B 的合并访问（8 thread x 4B 及 4 次 transactions）。而对于 Shared Memory 的 Store 操作，则会出现 Bank Conflict 导致 reply 的发生；同样地，内层循环中读取 Shared Memory 时，当 warp 的组织形式为 8x4 或 16x2 时，则会出现 Bank Conflict，导致 Shared memory 读取时的 reply，从而影响性能。

Register 优化

前面的算法设计中，每个线程只计算了矩阵 C 中的一个元素，每个线程每个内层循环需要从子矩阵 A 和子矩阵 B 中各读取一个 4Byte 的元素（共取 8Byte 数据执行2次浮点运算），实际上我们可以让每个线程读取一组 Shared Memory 数据后（放入寄存器中），计算更多的元素，从而减少 Shared Memory 的访问。

// using ILP 2 to improve the performance
__global__ void matrixMulSharedILPkernel(float* fpMatrixA, float* fpMatrixB,
float* fpMatrixC, int m, int n, int k)
{
    int row = blockIdx.y * blockDim.y * 2 + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    float val[2] = {0.0f};

    __shared__ float shTileA[BLOCK_SIZE][BLOCK_SIZE];
    __shared__ float shTileB[BLOCK_SIZE][BLOCK_SIZE];

    int iter = (k + BLOCK_SIZE - 1) / BLOCK_SIZE;
    for(int i = 0; i < iter; i++)
    {
        // read data from global memory to shared memory
        shTileA[threadIdx.y][threadIdx.x] = fpMatrixA[row * k + i * BLOCK_SIZE + threadIdx.x];
        shTileA[threadIdx.y + 16][threadIdx.x] = fpMatrixA[(row + 16) * k + i * BLOCK_SIZE + threadIdx.x];

        shTileB[threadIdx.y][threadIdx.x] = fpMatrixB[(i * BLOCK_SIZE + threadIdx.y) * n + col];
        shTileB[threadIdx.y + 16][threadIdx.x] = fpMatrixB[(i * BLOCK_SIZE + threadIdx.y + 16) * n + col];

        __syncthreads();

        for(int j = 0; j < BLOCK_SIZE; j++)
        {
            val[0] += shTileA[threadIdx.y][j] * shTileB[j][threadIdx.x];
            val[1] += shTileA[threadIdx.y + 16][j] * shTileB[j][threadIdx.x];
        }

        __syncthreads();
    }

    fpMatrixC[row * n + col] = val[0];
    fpMatrixC[(row + 16) * n + col] = val[1];
}

注意, kernel launch 时的 blocksize 需要变化为: blockSize.y = BLOCK_SIZE / 2。而 gridSize 不变.

上面的 kernel 函数中，注意观察内层循环：我们让 1 个 thread 分别从子矩阵 A 中读取 2 个数据，从子矩阵 B 中读取 1 个数据（注意2次取数据是同一地址！），然后同时计算2个元素 val[0] 和 val[1]。此时，通过读取 4B*3 个数据，实现了2次乘加共4次浮点计算。减少了 shared memory 中子矩阵B一半的数据访问。

我们详细分析一下上述代码对 Shared Memory 的访问情况：

Shared Memory Store：每 1 次外层循环中对矩阵 A 和矩阵 B 有 2 次 load，总的 thread 个数减少了一半。但是实际上总的 load transactions 次数没有变化（假设 no bank conflict）。

Shared Memory Load：在每 1 次内层循环中，1 个 warp 内的 32 个 thread 需要从 shTileA 读取同 2 个元素，需要 2 次 Shared Memory Load Transactions，再从 shTileB 中读取连续的 32 个元素（假设没有 Bank Conflict，需要1次 Shared Memory Load Transactions）（注意val[0]和val[1]的计算中，shTileB 的地址是一样的），即总共需要 3 次 Shared Memory Load Transactions。$k \div \text{BLOCK_SIZE} \times \text{BLOCK_SIZE}$ 次循环总共需要 $k \times 3$ 次 Shared Memory Load Transactions。对于 $m \times n \div 2$ 个 threads，共有$m \times n \div 2 \div 32$个 warp，总共的 Shared Memory Load Transactions 数目为：$(m \times n \div 2) \div 32 \times k \times 3$。对比优化前的 Shared Memory Load Transactions 数目 $m \times n \div 32 \times k \times 2$。

当然，我们还可以继续对 kernel 函数进行优化，让每个 thread 计算的元素个数从 2 个提高到 4/8/16/32 个，对比测试结果如下（m=n=k=1024, BLOCK_SIZE=32*32）：

此时测出的峰值性能相比于优化前提升了约 82.5%。但是，为什么继续增大每个 thread 计算元素个数后，性能反而下降呢？一方面是继续增大该指标后，每个 block 中 thread 的个数是在减少的，但是每个 block 中需要的 Shared Memory 数量没有减少。这将导致由于 Block 总数受限，降低 SM 中的 active threads 数量，即降低了 Occupancy。另外，每个 thread 计算更多元素会使用更多的 Registers。而每个 thread 中 Registers 的个数又会反过来影响 SM 中 active threads 的个数，进而影响 Occupancy。具体 Shared Memory 或者 Registers 哪个会影响 Occupancy，取决于哪个指标先到达阈值。在没有换来同等指令集并行的情况下，Occupancy 的减少会导致计算性能受限。

注：Shared_2代码中，每个thread计算 8 个元素。

上图为优化前后 3 个版本CUDA程序的性能差异，从图中可以得出：

在句子规模为 $4K \times 4K \times 4K$ 的情况下，第三个版本的方法达到的峰值性能超过 7T；
随着矩阵规模的增加，计算性能也逐渐增加；
通过利用 Shared Memory 和寄存器能有效的降低 IO 带宽对性能的影响，从而更加高效的利用 GPU 的硬件计算资源。