CUDA C 基础¶

optimize global memory access

Naive matrix multiplication

Tiled matrix multiplication

Achieve better on-chip RAM locality by computing smaller tiles or blocks that fit in the RAMs.

#define A(i,j) matrix_A[i * P + j]
#define B(i,j) matrix_B[i * N + j]
#define C(i,j) matrix_C[i * N + j]

Limitations of GPU¶

计算量增加（Multi-pass）同步的开销