关于cuda指针传递问题

Zach_ZhouY 2012-06-28 09:50:56

double* d_PixelsSum; //设备
double* h_PixelsSum; //主机
cudaMalloc((void **)&d_PixelsSum,sizeof(double)); //开辟显存
cudaMemset(d_PixelsSum, 0, sizeof(double));

h_PixelsSum = (double*)malloc(sizeof(double)); //开辟内存

//内核函数用于计算像素值总和
__global__ static void GpuImageDiff8bit(unsigned char* pSrcData8bit, unsigned char* pSrcDataTemp8bit,double* dPixelsSum){
const unsigned long offset = (blockIdx.x * THREAD_N + threadIdx.x);
//dPixelsSum[0] += fabs((double)(pSrcData8bit[offset] - pSrcDataTemp8bit[offset]));
dPixelsSum[0] = 1000000; //或者*dPixelsSum = 1000000都不行
}

//拷贝到主机
cudaMemcpy(h_PixelsSum,d_PixelsSum,sizeof(double),cudaMemcpyDeviceToHost);

double dTemp = *h_PixelsSum; //不是1000000

问题：为什么拷贝出来的数据都不是100000？是哪里写错了吗还是初始化不对？

...全文

158 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

cc19851 2012-06-29

打赏
举报

回复

把调用内核的代码贴出来看看

应用CUDA，opencv实现图像的高斯平滑处理，读取待处理的图像；定义中间数据传递的指针并分配内存；将数据从Host端传到Device端；网格和块的分配；执行kernel函数；将数据从Device端传回到Host端；最后释放内存。

GPU 净假设没有调用内核的主机函数会在最后调用 cudaDeviceSynchronize()。例如，主机上有一个执行多个内核的反向传播函数。最后两个是权重更新。如果立即从不同的流中读取这些权重，则可能需要同步。反向传播功能不会同步。笔记：使用具有 6977 个模式和 361 个输入到 1 个输出的人脸数据集，feed_forward_1_2 需要 29.3051 ms 进行 100 次半迭代，而 feed_forward_2_2 需要 0.604352 ms 进行 100 次半迭代。这意味着我需要能够在不到 29 毫秒左右的时间内求和才能有所改进。我在传递指向数组索引的指针时遇到问题，并且仍然使 reduce 内核按预期工作。 NVidia GTX 660 显卡理论峰值带宽 = 规格说 144.2 GB/秒

FFmpeg+CUDA硬件加速原理与案例实战FFmpeg系列之35FFmpeg第2季编解码专题之5：FFmpeg+CUDA硬件加速原理与案例实战本课程主要讲解的知识点包括：GPU高性能编程CUDA入门、CUDA编程模型的原理解析、CUDA编程小白案例入门实战、CUDA官方经典案例实战与解析、FFmpeg+CUVID硬件加速原理与命令行、Qt+FFmpeg实现cuda硬解码加速代码实战等。---------------------------------------------------------------目前FFmpeg第二季【编解码专题】，主要包括以下课程：FFmpeg4.3系列之31：图像格式与压缩FFmpeg4.3系列之32：MPEG-1/2视频编解码FFmpeg4.3系列之33：H.264/H.265视频编码FFmpeg4.3系列之34：FFmpeg+DXVA2+D3D硬件加速FFmpeg4.3系列之35：FFmpeg+CUDA硬件加速

我想把指针传送到CUDA内存区域中，但是遇到了一定的问题，最终找到了解决方法，这里进行一下记录：一、普通传递没有任何问题： cudaMalloc((void**)&a_dev, 50 * sizeof(int)); a_host = (int*)malloc(sizeof(int) * 50); for(inti = 0;i < 50;i++) a_host[i] = i; cudaMemcpy(a_dev, a_host, 50 * sizeof(int), cudaMem..

在把CPU的数组结构体传递到GPU内存中需要好多问题,找不到太多的资料,最后只能靠自己慢慢摸索 CPU上的代码我们一般称为 Host代码 GPU上面的一般叫Device 代码,之所以这样区分是由于GPU的内存和CPU的内存是相互独立的,它们的数据没法直接相互调用,只能通过cuda的一些方法进行操作,最常用的是 cudaMalloc和cudaMemcpy cudaMalloc是用来在GPU上申请

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章