589
社区成员
发帖
与我相关
我的任务
分享如果直接写核函数实现显存到显存的拷贝
__global__ void NavieCpy(cufftComplex* src, cufftComplex* des)
{
int id = blockIdx.x + threadIdx.x * gridDim.x;
des[id]=src[id];
}
速度只有cudamemcpy约1/12,请问有没有global memory访问优化的例子可以参考,最好是基础的memcpy