cuda里的求余运算

chenbo888666999 2010-08-13 09:14:52

cuda里的求余运算结构好奇怪呀：

__device__ unsigned int dsync=0;
unsigned int sync=0;

__global__ void kernel()
{
int tid=threadIdx.x;
int bid=blockIdx.x;

if(bid%2==0 && tid==0)
{
atomicInc(&dsync,33);
}
}
由于一直没找到程序的错误，所以写了一个简单的测试程序，测试原来程序中使用院子函数的情况。我的bid范围为0～31，按理说经过上面的kernel运算后dsync应该是16才对呀，但是输出的结果却是dsync=26，但是我把if(bid%2==0 && tid==0)改为if(bid<16 && tid==0)结构就是16，为什么求余运算都不对呀？

...全文

750 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

agathah 2011-10-31

打赏
举报

回复

如果是对2取模，可以用位操作代替？
试试看if((bid&1)==0 && tid==0) ？

dirdirdir3 2011-10-26

打赏
举报

回复

很有可能是操作符优先级的问题..........
if((bid%2)==0 && tid==0)

guankm 2011-10-24

打赏
举报

回复

cuda不建议做除法和取模运算。。。

ddweidong 2011-10-19

打赏
举报

回复

我也遇到这种问题，求余和除法都没作用，cuda-gdb调试打印求余和除法的结果时，给出这个警告： Variable is not live at this point. Returning garbage value.

本文围绕CUDA学习中矩阵乘法的并行运算展开。介绍了CUDA学习步骤，包括从CPU实现移植到CUDA。阐述了CPU和CUDA实现矩阵乘法的方法，还给出了两种程序优化方案，即共享内存分块运算和纹理内存运用。最后总结不同方式的运行时间，共享内存最快。

本文介绍用CUDA实现矩阵运算的方法，包括1D和2D运算、共享内存使用及CUBLAS库函数调用，旨在帮助读者理解GPU上的矩阵运算与CPU上的区别，并通过实践提高计算效率。

在CUDA编程中，由于GPU的ALU缺乏对除法和取余的硬件支持，且Warp调度机制导致执行延迟，建议用位运算代替除余操作。尤其当除数为2的幂时，可大幅提升性能。

本文围绕CUDA实现矩阵求逆展开。先介绍了CUDA及其在矩阵求逆中的应用与优势，接着详细阐述设备与主机交互、线程与线程块组织、内存层次优化、核函数编程等内容，最后讲解矩阵求逆算法，包括直接与迭代方法，以及并行化实现策略和案例，帮助开发者掌握利用GPU并行计算解决矩阵求逆的方法。

作者研究并行运算规约算法，记录《GPU高性能编程CUDA实战》中点积运算问题。点积运算分四步：申请共享内存cache；将线程块中线程计算元素加和放入共享内存；用并行规约思想将线程块中线程元素加和；将线程块元素和加总得到最终结果。

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章