CUDA kernel核函数读取global memory数据

anew_moon 2019-11-14 10:31:37

现在需要利用GPU-CUDA计算一个很大的数组问题，但是数组很大（eg. 10000），但是由于GPU设备可调用的线程总数有限（eg. 5000），所以计划将数组分为等大小的4分，分四次调用kernel核函数。
示例代码如下



//将大小为10000的数组整个传递到GPU global memory中

cudaMemcpy(d_a, h_a, sizeof(int)*10000);

//大小为10000数组a，分为4份, 分别调用核函数

for(int i=0; i<4; i++)

{

    //...

    kernel<<<grid, block>>>(ai)

}

问题：
每次调用核函数，kernel从global中是读取1/4的数组a（即2500个数据），还是每次读取整个数组（即10000个数据）；

...全文

156 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

FFmpeg+CUDA硬件加速原理与案例实战 FFmpeg系列之35FFmpeg第2季编解码专题之5：FFmpeg+CUDA硬件加速原理与案例实战本课程主要讲解的知识点包括：GPU高性能编程CUDA入门、CUDA编程模型的原理解析、CUDA编程小白案例...

kernel在cuda中指的是一个函数，当一个kernel被调用的时候，gpu会同时启动很多个线程来执行这一个kernel，这样就实现了并行化；每个线程执行这一kernel将通过线程号来对应输入数据的下标，这样保证每个thread执行的...

1核函数定义：在GPU进行的函数通常称为核函数一般通过__global__修饰(在核函数里，都用双下划线来修饰)，调用通过<<>>，第一个参数代表block线程块数目，第二个参数代表线程块内含有的线程数目thread。...

Dynamic Parallelism是 CUDA 编程模型的扩展，使 CUDA 内核能够直接在 GPU 上创建新工作并与新工作同步。在程序中需要的任何位置动态创建并行性提供了令人兴奋的新功能。直接从 GPU 创建工作的能力可以减少在主机和...

如果在kernel函数中，需要对global memory同一个数据多次访问，最好使用shared memory，先将数据从globalmemory拷贝到shared memory中，然后使用shared memory中数据进行读取。如果仅读取一次，则使用shared ...

CUDA

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章