CUDA矩阵加法出错

sbaban 2015-09-14 11:32:21



#include<cuda_runtime_api.h>

#include<stdio.h>

__global__ void add(int a[2][2], int b[2][2], int c[2][2])

{

	int i = blockIdx.x*blockDim.x + threadIdx.x;

	int j = blockIdx.y*blockDim.y + threadIdx.y;

	if (i < 2 && j < 2)

	{	

			c[i][j] = a[i][j] + b[i][j];

	}

}

int main()

{

	int i, j, k;

	int a[2][2] = { 1, 2, 3, 4 };

	int b[2][2] = { 10, 20, 30, 40 };

	int c[2][2] = { 0 };



	cudaError_t error = cudaSuccess;



	int device_a[2][2], device_b[2][2], device_c[2][2];

	error = cudaMalloc((void **)&device_a, sizeof(int)* 4);

	error = cudaMalloc((void **)&device_b, sizeof(int)* 4);

	error = cudaMalloc((void **)&device_c, sizeof(int)*4);



	cudaMemcpy(device_a,a, sizeof(int)* 4, cudaMemcpyHostToDevice);

	cudaMemcpy(device_b,b, sizeof(int)* 4, cudaMemcpyHostToDevice);



//	dim3 threadsPerBlock(1, 1);

//	dim3 numBlocks(2 / threadsPerBlock.x, 2 / threadsPerBlock.y);



	add << <1, 4 >> >(device_a, device_b, device_c);



	cudaMemcpy(c, device_c, sizeof(int)* 4, cudaMemcpyDeviceToHost);



	for (i = 0; i < 2; i++){printf("\n");for (j = 0; j < 2; j++)printf("%4d", c[i][j]);}



	return 0;

}

请问为什么结果显示是0 ，哪里出问题了

...全文

269 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

gundamzzj 2015-11-18

打赏
举报

回复

把 global函数改成 __global__ void add(int*a int*b,int*c) 然后main 函数里你应该声明三个指针然后为他们动态分配内存： int *device_a, *device_b, *device_c;

fgg1991 2015-09-17

打赏
举报

回复

读了一下代码感觉没啥问题你把参数改成int*在host里给他们分配空间再试？

sbaban 2015-09-17

打赏
举报

回复

怎么改，能具体说下吗

本篇博客总结自我《并行计算》CUDA编程实验在《并行计算》课程中我们学习了CUDA编程模型，在这里我实现了用CUDA实现简单的向量加法和矩阵乘法，并在USTC 联想深腾7000G GPU集群上完成了验证。1.CUDA编程模型简介CUDA...

今天，我要带你从最基础的向量加法入手，用大白话讲明白CUDA的精髓，让你快速上手并行计算，释放GPU的洪荒之力。作为一个多年混迹C++的老司机，我敢说：学会这个，你离“计算狂人”的称号就不远了！

这几天一直在调试cuda下的矩阵相加程序，但一直运行错误，最后才发现是我的NVIDIA不支持double类型，导致出错。下面是我的代码： #include "stdio.h" #include "cuda_runtime.h" #include "cutil_inline.h" __...

1.在编写cuda程序时，不管是在cpu还是gpu执行的代码，所有n维数组均有cudaMalloc/malloc开辟一维空间，通过 [行号*列数+列号] 来获取其值。3.在编写cuda程序时，不管是在cpu还是gpu执行的代码，所有n维数组均有。2....

下面的程序是我在VS2010下做的，看起来是正确的，但我仔细看运行结果的数据将.../*矩阵加法，程序运行通过,运行不稳定，时好时坏，另外效率不高，GPU执行速度很慢 */ #include #include #include #include #includ

589

社区成员

2,924

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章