CUDA计算直方图，采用线程一对一映射实现，怎么定义线程块和线程

dreamcraneleaf 2015-05-21 08:54:37

__global__ void myhistKernel(const unsigned int const * d_hist_data,unsigned int * const d_bin_data)
{
__shared__ unsigned int d_bin_data_shared[256];
const unsigned int idx=(blockIdx.x * (blockDim.x*N)) + threadIdx.x;
const unsigned int idy=(blockIdx.y * blockDim.y) + threadIdx.y;
const unsigned int tid=idx+idy * (blockDim.x*N) * (gridDim.x);
d_bin_data_shared[threadIdx.x]=0;
__syncthreads();
const unsigned int value_u32 = d_hist_data[tid];

atomicAdd(&(d_bin_data_shared[ ((value_u32 & 0x000000FF)) ]),1);
atomicAdd(&(d_bin_data_shared[ ((value_u32 & 0x0000FF00) >>8 ) ]),1);
atomicAdd(&(d_bin_data_shared[ ((value_u32 & 0x00FF0000) >>16 ) ]),1);
atomicAdd(&(d_bin_data_shared[ ((value_u32 & 0xFF000000) >>24 ) ]),1);

__syncthreads();
atomicAdd(&(d_bin_data[threadIdx.x]),d_bin_data_shared[threadIdx.x]);
}

...全文

152 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本文研究基于CUDA的图像灰度化与直方图均衡化并行加速方法。重点阐述CUDA编程模型在像素级并行计算中的适用性，详细设计灰度化（加权平均法）和直方图均衡化（含直方图统计、CDF并行扫描及映射变换）的GPU实现流程，并分析内存优化、线程配置与异步执行等关键技术对性能的影响，验证其相较CPU方案在高分辨率图像处理中的显著加速效果。

本文详细介绍了一种利用GPU加速的直方图均衡化算法，包括CPU与GPU代码对比，展示了如何通过CUDA并行计算优化图像处理效率。从直方图统计、概率计算、累积概率到映射过程，全面解析了GPU在图像处理领域的应用。

本文介绍了GPU上实现直方图均衡化的具体步骤，包括统计灰度级像素个数、计算累积概率密度函数等，并提供了相应的CUDA内核函数代码。

本文以统计直方图计算为典型案例，深入剖析CUDA线程模型的三层结构（线程/Warp/Block/Grid）及其协同机制，重点阐述如何通过共享内存局部归约、私有直方图归约和排序辅助等策略减少全局原子竞争，并结合线程块大小、网格配置、向量化访存、共享内存Bank Conflict规避等关键技术，实现GPU端高效并行直方图计算。内容涵盖性能分析工具使用及图像直方图实战调优。

文章介绍了共享内存的概念及其在CUDA编程中的应用，通过归并求和和直方图统计两个例子，阐述了如何使用共享内存减少全局内存访问，提高计算效率。在CUDA中，共享内存是块内线程共享的，通过__syncthreads()保证同步，通过线程ID映射到共享内存进行计算，最后将结果写回全局内存。

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章