cuda 设备内memcpy速度太慢

df夜落花千树 2023-11-13 11:30:09

如果直接写核函数实现显存到显存的拷贝

__global__ void NavieCpy(cufftComplex* src, cufftComplex* des)
{
int id = blockIdx.x + threadIdx.x * gridDim.x;
des[id]=src[id];
}
速度只有cudamemcpy约1/12，请问有没有global memory访问优化的例子可以参考，最好是基础的memcpy

...全文

1106 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Cooperative Groups 是 CUDA 9 中引入的 CUDA 编程模型的扩展，用于组织通信线程组。协作组允许开发人员表达线程通信的粒度，帮助他们表达更丰富、更有效的并行分解。

2019独角兽企业重金招聘Python工程师标准>>> ...

Cooperative Groups 是 CUDA 9 中引入的 CUDA 编程模型的扩展，用于组织通信线程组。协作组允许开发人员表达线程通信的粒度，帮助他们表达更丰富、更有效的并行分解。从历史上看，CUDA 编程模型为同步协作线程提供了一个单一、简单的构造：线程块的所有线程之间的屏障，如使用内部函数实现的那样。但是，程序员希望以其他粒度定义和同步线程组，以“集体”组范围功能接口的形式实现更高的性能、设计灵活性和软件重用。为了表达更广泛的并行交互模式，许多面向性能的程序员已经求助于编写自己的临时和不安全

CUDA程序获得高性能要求：1.数据传输比例所占时间小。2.核函数的算术强度较高。3.核函数中定义的线程数目较多。所以，在编写与优化CUDA程序时，一定要想方设法（主要是指仔细设计算法）做到以下几点：• 减少主机与设备之间的数据传输。• 提高核函数的算术强度。• 增大核函数的并行规模。

不知道大家有没有遇到这样的情况：在某个迭代计算过程中，数组new的计算需要old的值，当计算完成后，需要把new的值写入old再下一次迭代？如果这里使用memcpy的方式，当数据量较大的时候会很耗时的！解决方法：交换指针也就是把指向设备内存new和old的指针进行交换，这样就避免了memcpy的时间消耗~当然用过的人无视以上内容~ 交换方法：定义一个函数 voi

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章