一个CUDA二维数组相加的例子,请大牛们看看错在哪里

JH_kanwairen 2012-06-29 11:10:07
#include "book.h"
__global__ void ADD(int *A,int *B,int *C)
{
int i=threadIdx.x;
int j=threadIdx.y;
while ( i<4 && j<4)
{
C[i][j]=A[i][j]+B[i][j];
}
}
int main( void ) {

a = (int*)malloc( 16 * sizeof(int) );
b = (int*)malloc( 16 * sizeof(int) );
c = (int*)malloc( 16 * sizeof(int) );

int a[4][4]={{1,1,1,1},{1,1,1,1},{1,1,1,1},{1,1,1,1}};
int b[4][4]={{1,1,1,1},{1,1,1,1},{1,1,1,1},{1,1,1,1}};
int *A,*B,*C;
cudaMalloc((void**) &A,sizeof(int)*16);
cudaMalloc((void**) &B,sizeof(int)*16);
cudaMalloc((void**) &C,sizeof(int)*16);
cudaMemcpy(A,a,sizeof(int)*16,cudaMemcpyHostToDevice);
cudaMemcpy(B,b,sizeof(int)*16,cudaMemcpyHostToDevice);

dim3 threadsPerBlock(4,4);

ADD<<<1,threadsPerBlock>>>(A,B,C);

int c[4][4];
cudaMemcpy(c,C,sizeof(int)*16,cudaMemcpyHostToDevice);
printf( "c\n" );

cudaFree(A);
cudaFree(B);
cudaFree(C);
return 0;
}
...全文
565 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
JH_kanwairen 2012-08-16
  • 打赏
  • 举报
回复
问题解决,谢谢楼上各位
xubinxuxinyu 2012-07-26
  • 打赏
  • 举报
回复
要用cudamalloc2D 和cudamemcpypitch两个函数,具体的上网度一度就ok
rainliuyu 2012-07-05
  • 打赏
  • 举报
回复
你的函数声明是这样的void ADD(int *A,int *B,int *C)
参数里没说明A B C的围数,或者说不知道他们是几行几列的
因此你用
A[x][y]这样的方式是无法正确定位到你要操作的元素的
所以应该把二维数组指针在这里当作一维的去处理

通过x*Col+y的方式明确告诉这段代码,你要操作的地址相比起始地址的偏移量是多少
JH_kanwairen 2012-06-29
  • 打赏
  • 举报
回复
c[j*4+i] = a[j*4+i] + b[j*4+i] 这样改了不就是一维数组了,这里不是很清楚,还是初学者,请不吝教教我吧!我怎样可以在网格中用二维索引呢?有例子的话可以看看 ,真心谢谢
cc19851 2012-06-29
  • 打赏
  • 举报
回复
C[i][j]=A[i][j]+B[i][j];
你传入的不是 **,并且最好不要使用 **,要多一个间接的global访问,并且host端处理地址映射容易出错
c[j*4+i] = a[j*4+i] + b[j*4+i]
内容概要:本文围绕基于三重移相控制(TPS)的双有源桥(DAB)高频隔离DC-DC变换器开展系统性研究,重点构建了其在Simulink环境下的高精度仿真模型。研究全面涵盖SPS单相移相、DPS双重重移相与TPS三重移相等多种控制策略的建模、实现与性能对比,深入分析不同模式下变换器的功率传输特性、软开关实现条件及功率回流问题,旨在提升DAB在交直流混合微电网、能量路由器、多端口柔性互联装置等场景中的转换效率与动态响应能力。通过对ZVS(零电压切换)条件的精确控制与移相角参数的优化,有效降低了开关损耗,增强了系统整体能效与运行稳定性。该仿真模型具有良好的可扩展性,适用于复杂电能转换系统的科研验证与工程开发。; 适合人群:电力电子、电气工程及其自动化等相关专业的硕士研究生、博士生、科研人员以及从事新能源变换器、柔性输配电系统设计的工程技术人员。; 使用场景及目标:①掌握双有源桥DAB变换器的基本工作原理及其在高频隔离场合的核心优势;②深入理解三重移相控制策略的设计机理、控制自由度分配及其在效率优化中的关键作用;③构建并调试可用于科研论文撰写、项目申报或实际系统验证的高保真Simulink仿真模型,支撑理论分析与实验对比。; 阅读建议:建议结合MATLAB/Simulink平台进行动手实践,重点关注主电路拓扑搭建、移相控制模块设计、驱动信号时序配置及ZVS实现条件的仿真观测,推荐通过对比SPS、DPS与TPS三种模式的稳态与动态响应曲线,深入掌握各控制策略的适用边界与优化方向。
【重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解与支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!

591

社区成员

发帖
与我相关
我的任务
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
  • CUDA编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧