cuda 设备内memcpy速度太慢

df夜落花千树 2023-11-13 11:30:09

如果直接写核函数实现显存到显存的拷贝

__global__ void NavieCpy(cufftComplex* src, cufftComplex* des)
{
    int id = blockIdx.x  + threadIdx.x * gridDim.x;
    des[id]=src[id];
}
速度只有cudamemcpy约1/12,请问有没有global memory访问优化的例子可以参考,最好是基础的memcpy

...全文
610 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

589

社区成员

发帖
与我相关
我的任务
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
  • CUDA编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧