CUDA计算精度问题

程序峰峰 2018-06-24 10:32:21

为什么程序用CUDA并行计算得到的结果和在CPU上得到的结果有一定的差异（虽然不大），而且多次调用核函数后用CUDA得到的结果是一堆0，求大佬们指点

...全文

1202 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

YCMyTot 2018-07-05

打赏
举报

回复

寄存器或者共享内存不够用，试下多卡+openmp?

程序峰峰 2018-06-29

打赏
举报

回复

谢谢各位大佬，问题解决了，原因是核函数里面直接定义了一个大数组，导致寄存器不够用，我把数组定义为设备的全局变量就可以了，而且误差就没了。。但是计算速度受到了影响。请问如果寄存器不够用（共享内存也不够用）的话，有没有好的处理方法？ CUDA新手，求大佬们指导

xinxin0998 2018-06-28

打赏
举报

回复

在申请内存的时候要注意根据类型大小申请，例如sizeof(int)*N,sizeof(float)*N或者sizeof(double)*N，一定要和你使用的类型一一对应，在核函数中进行引用的时候，如果传入的指针类型是float，那就按照1个float数来计算地址偏移，如果传入的类型是void*或者char*，要按照4个字节数计算偏移

xinxin0998 2018-06-28

打赏
举报

回复

看看是否存在地址超出范围的情况

ywx20170810 2018-06-27

打赏
举报

回复

差异肯定会有点，一般都自动四舍五入了

程序峰峰 2018-06-27

打赏
举报

回复

改成double还是有差异然后我发现增大传入到GPU的数据大小后，核函数就不执行了，导致数据全是0，必须减小导入到GPU里的数据大小才能正常运行，这是什么原因呀，我导入的数据大小还不到10M，但是显存是4G（程序在linux里跑的）

YCMyTot 2018-06-26

打赏
举报

回复

试下double？

CUDA矩阵相乘A*B=C代码，任意输入矩阵A的宽度和矩阵B的宽度（A[wB][wA]*B[wA][wB]），cudaMallocPitch开辟显存空间，cudaMemcpy2D数组复制，Kahan's Summation Formula提高浮点计算精度。

在使用CUDA并行编程设计radon变换函数时，由于我的GPU计算能力仅有3.5，没办法使用双精度double的原子操作，于是用float代替全部的double，结果发现计算速度提高了一倍（如果用double的话，在release下是450ms，使用...

FFmpeg+CUDA硬件加速原理与案例实战 FFmpeg系列之35FFmpeg第2季编解码专题之5：FFmpeg+CUDA硬件加速原理与案例实战本课程主要讲解的知识点包括：GPU高性能编程CUDA入门、CUDA编程模型的原理解析、CUDA编程小白案例...

在一些科学计算应用中，数值精度是非常关键的，因此在选择并行算法和优化技术时需要仔细考虑。在这个简单的向量相加的CUDA内核中，如果输入数组 a 和 b 中包含极小或极大的浮点数，那么在并行计算中可能会由于浮点数...

检查了很长时间代码，也没检查出错误，最后通过逐步输出中间结果进行调试，发现某些变量被GPU计算错了，而导致这个错误的原因就是：float 精度不够，索引是根据中间计算而来，当误差特别大时，会导致内存索引所以变...

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章