关于CUDA计算大数组加法效率的疑问~

a2203476 2019-10-23 06:08:33

初学CUDA，有个疑问。如图代码，看起来似乎大部分的计算量其实在索引计算上，而非真正的用于两个数相加但是看书本好像都是这么类似的写法，没提效率问题难道是只要索引能完全确定的情况下，CUDA编译阶段就会计算好，变成一个立即数存在指令里？

...全文

78 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

2021SC@SDUSC CGBN概念 CGBN 的典型用例是构建处理大量问题实例的内核，其中每个问题实例都需要无符号多精度算术计算。典型的 CUDA 方法是为每个问题实例分配一个线程，但是多精度算法需要大量寄存器资源，因此将多精度值分布到一组连续线程中会更有效。这是CGBN实现的基本逻辑。从一个样本内核开始，该内核传递了一系列问题实例，对于每个实例，内核计算的总和 a + b 并将结果存储在 r 中，其中 a 、 b 和 r 是 1024 位数字。 #include "cgbn/cgbn.h"

圆周率计算，并行加速，mpi, cuda, gpu，双精度浮点数，reduce sum 规约，大数吃小数的精度问题处理方法，等等

CUDA编程（十） http://blog.csdn.net/sunmc1204953974/article/details/51107850 使用Kahan’s Summation Formula提高精度上一次我们准备去并行一个矩阵乘法，然后我们在GPU上完成了这个程序，当然是非常单纯的把任务分配给各个线程，也没有经过优化。最终我们看到，执行效率相当的低下，但是更重要的是出现

规约（Reduce）可以认为是对所有数组添加一种规则或者说规范，这是一种非常典型的并行算法，给定N个输入数据，指定符合结合律的二元操作符最终得到规约结果，而这个二元操作符便包括求和，最大最小，点积等。本文主要介绍的是求和的并行规约算法。经过上述的一系列优化方法可以使得并行规约的运行时间得到大幅度的提升，可以看到循环展开的优化效果是非常明显的。作为入门级优化项目，完整的实现上述优化方法还是可以很好的帮助我们入门并行优化。

本人在开发项目时，遇到这个非法访问内存的错误： Check failed: error == cudaSuccess (77 vs. 0) an illegal memory access was encountered 检查了很长时间代码，也没检查出错误，最后通过逐步输出中间结果进行调试，发现某些变量被GPU计算错了，而导致这个错误的原因就是：float 精度不够，索引是根据中间计算而来，当误差特别大时，会导致内存索引所以变得非常大，而导致非法访问内存的错误。我在代码中使用了float类型，而在 GPU

CUDA高性能计算讨论

353

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章