CUDA实例系列二:矩阵转置优化
矩阵转置优化矩阵转置是CUDA初学者们刚开始面临的一个比较绕的问题, 他的"绕"在于其中坐标的转换, 以及使用Shared Memory来解决合并访存的过程.在很多实际项目或应用中, 矩阵转置多数都是其中一个步骤.接下来我就来解释下如何利用CUDA优化矩阵转置问题.首先, 解释下矩阵转置矩阵转置按照矩阵转置的公式,我们设定(按照下图所示)输入矩阵为: A[16][16] M=16输出矩阵为: B[16][16]保证:A[y][x] = B[x][y]接下来, 话不多说直接上代码(不要划