cuda的参数传递问题！

robbie 2014-01-27 11:21:31

cudaMalloc((void**) &device_result, sizeof(double) * NumBlock * NumGrid);
cudaMemset((void**) &device_result, 0,sizeof(double) * width*height);

然后把device_result作为参数传递到
conv <<< dimGrid, dimBlock>>>(device_result, device_I1, size);

在conv中
__global__ void SNN(double* t_result, double* t_I1, int t_size)
{
// determine where in the thread grid we are
int idx = threadIdx.x+blockIdx.x * blockDim.x;

t_result[idx] = 0;

...
}
请问t_result[idx] = 0;要加上吗？？？我试了，如果不加结果不对，可是我已经cudaMemset((void**) &device_result, 0,sizeof(double) * width*height);了呀。

...全文

579 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

yuanwcj 2014-04-14

打赏
举报

这里有几个方面的问题： 1. 空间分配的大小与初始化的大小并没有直接关系空间分配时分配的是以该指针为起始的一块连续区域，初始化时也是同样的道理，并不要求分配的大小与初始化的大小一致，有时因为需求可能会故意这样设定，楼主这样的做法本质上说并没有问题。 2. 楼主的问题在于，你开辟的内存空间根本就没有被置零，因为cudaMemset这一行程序有误，请注意以下2行代码的区别 A：cudaMemset((void**) &device_result, 0,sizeof(double) * NumBlock * NumGrid); B：cudaMemset(device_result, 0,sizeof(double) * NumBlock * NumGrid); 正确的写法应该是第二种，因为按照第一行的写法根本达不到将开辟的空间置零的目的

Double_Lan_2975 2014-04-12

打赏
举报

先确定下输入和输入的长度是否一致

grasshoper97 2014-01-30

打赏
举报

cudaMalloc((void**) &device_result, sizeof(double) * NumBlock * NumGrid); cudaMemset((void**) &device_result, 0,sizeof(double) * NumBlock * NumGrid); 你分配空间和置0的语句，数组长度一致吗？一个是 NumBlock * NumGrid，一个是 NumBlock * NumGrid。改成cudaMemset(device_result, 0,sizeof(double) *NumBlock * NumGrid);试试

一份小的CUDA cublasgemm测试代码，主要是为了摸索cublas的麻烦的参数传递

CUDA GPU编程中使用结构体传递函数参数 CUDA GPU编程中，虽然统一寻址(Unified Memory)技术能够大大简化编程难度和代码复杂度，但是速度略有牺牲，同时对运行环境提出更多的要求。而在不使用这项技术时，编程时需要同时创建CPU（host）和GPU（device）端的变量指针，然后为其分别分配内存。操作完成后，再分别释放内存。CUDA工程的范例程序中，单独编写

在程序中可以将CPU程序中的参数传递给核函数。__global__ void add(int a,int b,int *c) {*c = a + b;}int main(void) {int c;int *dev_c;//在分配GPU的内存cudaMalloc((void**)&dev_c, sizeof(int));//调用核函数add <<<1, 1 >>...

CUDA GPU编程中使用结构体传递函数参数 CUDAGPU编程中，虽然统一寻址(Unified Memory)技术能够大大简化编程难度和代码复杂度，但是速度略有牺牲，同时对运行环境提出更多的要求。而在不使用这项技术时，编程时需要同时创建CPU（host）和GPU（device）端的变量指针，然后为其分别分配内存。操作完成后，再分别释放内存。CUDA工程的范例程序中，单

int aint b：两个通过值传递的整型参数。int *c：一个指针，指向 GPU 设备内存，用于返回结果。cudaMalloc。