OpenCL双精度计算结果不一致，A卡不正确

Eric Hu 2019-04-11 10:57:21

最近把一个CPU计算代码翻译为OpenCL进行运行，已经调试并验证通过(使用GTX1060).
计算过程是一个按迭代过程，计算结果以残差（后一迭代步与前一迭代步直接的结果差值）方式呈现，残差变小的过程称为收敛过程；
计算环境VS2015,全部fp64，Kernel函数依次在同一命令队列中调用，基于event等待进行约束;
现象是：
1.使用CUDA 9.2(OpenCL1.2)在GTX1060上的运行，各迭代步结果与CPU串行运行基本一致(在小数点12后有细微偏差)；
2.A卡具有Debug与Release的区别（仅改变VS的Debug与Release）
a)使用Debug直接运行，第3个迭代步就发散(计算结果nan)，前面2步结果不正确且表现出随机性(多次运行结果均不一致);
b)使用Release运行,能够计算且不发散，但各迭代步的值和CPU/GTX1060有很大差别;
c)使得Debug调试，若对包含调用多个clEnqueueNDRangeKernel()的函数step over（逐过程）运行，结果出错，但是，如果进入该函数后，逐个运行clEnqueueNDRangeKernel()函数，结果又正确一致；
d)尝试更改AMD驱动版本，更换AMD显卡（2片r9 390，1片r9 280x），添加OpenCL编译选项(如-cl-std=CL1.2 -cl-opt-disable)等均没效果；
e)本身未启用乱序执行，怀疑有不按照流程执行，于是使用了clSetEventCallback设置回调函数监控时间，发现流程正确。
综上，尤其是那个逐个监控就正确，不看时就不正确，感觉是这个“薛定谔事件”极为不科学.

...全文

15327 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Eric Hu 2019-07-11

打赏
举报

回复

这么久也没人回复最后自己解决了发在另一个论坛上 https://bbs.gpuworld.cn/index.php?topic=73218.0 OpenCL还是太小众，为啥不用CUDA，因为qióng

联发科技曦力 X20处理器MT6797数据手册

作为开发者，我们需要了解不同硬件特性潜在的优势，其中设备扮演着重要的角色，并且不同的设备有着对应的硬件架构。当读者已经对目标硬件足够了解时，就能在设计并行算法和软件时做出更加理性的抉择。这里的“了解”指的是了解OpenCL中编程、内存和运行时模型设计背后的哲学。OpenCL并行模型希望能够在现有的硬件上高效的运行相应应用，比如在串行处理器、对称多处理器、多线程或SIMD，以及一些支持向量的设备。本章我们会讨论这些设备，以及对设备的整体设计。

AMD OpenCL大学课程是非常好的入门级OpenCL教程，通过看教程中的PPT，我们能够很快的了解OpenCL机制以及编程方法。下载地址：http://developer.amd.com/zones/OpenCLZone/universities/Pages/default.aspx 教程中的英文很简单，我相信学OpenCL的人都能看得懂，而且看原汁原味的英文表述，更有利于我们了解

原文https://www.cnblogs.com/hlwfirst/p/5003504.html CUDA与OpenCL架构目录 CUDA与OpenCL架构目录 1 GPU的体系结构 1.1 GPU简介 1.2 GPU与CPU的差异 2 CUDA架构 2.1 硬件架构 2.1.1 GPU困境 2.1.2 芯片结构 ...

上一篇博客介绍了如何使用Theano+logistic regression来实现kaggle上的数字手写识别，文末提到了CPU计算实在太慢，因此在做完这个实验之后，博主查阅了Theano的文档，了解到Theano官方仅支持CUDA进行GPU运算，不支持OpenCL，也就是说Theano官方仅支持N卡。原因是，CUDA和OpenCL是两个GPU计算平台，CUDA仅支持N卡，OpenCL支持所有的显卡

OpenCL和异构编程

608

社区成员

574

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章