CUDA实例系列五:In-Place矩阵转置(含源码)
CUDA优化实例: In-Place矩阵转置所谓In-Place矩阵转置, 简单点说就是我们在同一个内存空间内做矩阵转置的操作.这也是很多计算需要的步骤之一, 这样操作可以有效减少对存储单元的需求.利用CUDA优化矩阵转置,可以参考我之前的blog:https://blog.csdn.net/kunhe0512/article/details/124884614而In-Place矩阵转置简单点说, 我们可以使用一半的线程来完成任务:这里使用一半的线程的意义在于即使使用全部线程也不能增加速度,