如果直接写核函数实现显存到显存的拷贝
__global__ void NavieCpy(cufftComplex* src, cufftComplex* des) { int id = blockIdx.x + threadIdx.x * gridDim.x; des[id]=src[id]; } 速度只有cudamemcpy约1/12,请问有没有global memory访问优化的例子可以参考,最好是基础的memcpy
589
社区成员
2,924
社区内容
加载中
试试用AI创作助手写篇文章吧