cudamemcpy2D如何正确的传值

qq_34705009 2017-07-10 01:09:31

两个1000*1000的矩阵A,B相加，结果存到C中，先用cudaMallocPitch分配了空间，但是用cudaMemcpy2D将数组A,B从主机传到设备时，设备端数组dev_a,dev_b值全为0是为什么？

代码如下：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <stdlib.h>

#define size 1000

__global__ void addKernel(int *c, int *a, int *b)
{
int i = (blockIdx.x*blockDim.x)+threadIdx.x;
int j = (blockIdx.y*blockDim.y)+threadIdx.y;
if(i<size&&j<size)
c[i*size+j] = a[i*size+j] + b[i*size+j];
}

int main()
{
int i,j;
int *a = (int *)malloc(size*size*sizeof(int));
int *b = (int *)malloc(size*size*sizeof(int));
int *c = (int *)malloc(size*size*sizeof(int));

for(i=0;i<size;i++)
for(j=0;j<size;j++)
{
a[i*size+j] = size*i+j;
b[i*size+j] = 1000+a[i*size+j];
}

system("pause");

cudaError_t cudaStatus;
int *dev_a,*dev_b,*dev_c;
size_t pitch1 = size * sizeof(int);
size_t pitch2_a,pitch2_b,pitch2_c;
size_t width = size * sizeof(int);
size_t height = size;

cudaStatus = cudaMallocPitch((void**)&dev_a,&pitch2_a,width,height);
cudaStatus = cudaMallocPitch((void**)&dev_b,&pitch2_b,width,height);
cudaStatus = cudaMallocPitch((void**)&dev_c,&pitch2_c,width,height);

cudaStatus = cudaMemcpy2D(dev_a, pitch2_a, a , pitch1 , width, height, cudaMemcpyHostToDevice);

cudaStatus = cudaMemcpy2D(dev_b, pitch2_b, b , pitch1 , width, height, cudaMemcpyHostToDevice);

addKernel<<<2048,512>>>(dev_a,dev_b,dev_c);

cudaStatus = cudaMemcpy2D(c, pitch1, dev_c, pitch2_c, width, height, cudaMemcpyDeviceToHost);

system("pause");
free(a);
free(b);
free(c);
cudaFree(a);
cudaFree(b);
cudaFree(c);
return 0;
}

...全文