求助：关于opencl中CPU和GPU对double的计算问题

cxjchen 2014-08-11 05:33:29

处理器：AMD APU with Radeon(TM) R7 Graphics
计算两个数组的卷积
int main(int argc, char* argv[])
{
unsigned int NUM=256*256;
double* d_a = new double[NUM*sizeof(double)];
double* d_b = new double[NUM*sizeof(double)];
for(int i=0;i<NUM;i++){
d_a[i]=2.3+(double)i;
d_b[i]=1.9+(double)i;
}
double result=convolution(d_a,d_b,NUM);
printf("%f",result);
getchar();
return 0;
}

在CPU运行时结果是93831864344248.344000
在GPU运行时结果是93831864344248.312000
哪位高手能大概解释下是什么原因吗，求助求助！！

...全文

619 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

cxjchen 2014-08-14

打赏
举报

回复

这是CPU的info

cxjchen 2014-08-14

打赏
举报

回复

当用float定义的时候没有任何问题，如果用double定义，数值较小也没问题，当数值调大，比如256*256个(double)102546456*204864654的和，CPU和GPU就会有一点误差，我是win8.1，用的vs2012，AMD的APU，请问是x87编译器的问题吗，怎么看CPU编译时用的什么编译器呀？？？

cxjchen 2014-08-14

打赏
举报

回复

还有就是，比如我令double a=3.3,b=7.7，一共求256*256次乘积和，在cpu上和gpu上结果会有一点误差，但如果求256次乘积和，计算机结果就是一样的，如果用float定义，结果都一样，到底是怎么回事，希望有人能够给个确切一点的回答，感激不尽！！！

fronteer 2014-08-13

打赏
举报

回复

你的 convolution() 是库函数还是头文件中定义的和宏？我认为这个结果和 CPU 上编译 onvolution() 代码的环境有关. 解释如下: 1) 我们在编译 GPU kernel 代码时通常是不给 runtime 编译器提供任何编译选项的。 Double 类型的实现在 GPU 上是标准的 IEEE 754 的双精度类型, 其精度是 64bit 2) 在 CPU 上， C 的 Double 类型的实现则和编译关系太大了. 在现在的 x86-64 机器上可以做浮点运算的设备(或方式)有两个，一个是 x87 浮点寄存器及指令集，另外一个是 SSE寄存器及相关浮点指令集。前者实现的Double是对IEEE 754双精度类型的扩展，精度达 80位，后者精度是 64 位. 所以如果你的CPU代码编译时用的是 x87, 则会可能会出现你说的结果差别. 3) 以Linux 上 Gcc 位例， 32位代码保留用 x87 做 double 类型计算， 64位代码保留用SSE指令做浮点计算。但用户可以通过 gcc 的 -mfpmath 选项指定用于浮点计算的设备. 4) 另外，CPU 编译器的更具体达选项，比如规定舍入规则的选项，也能影响你的测试结果，如 gcc 的 fp-rounding-mode, rounding-math 选项的使用，能改变浮点运算的舍入规则，从而影响你的测试结果

lcwyylcwyy 2014-08-12

打赏
举报

回复

1,GPU中的double并不是很精确，2,,要防止比较大的数加上比较小的数，这样会吃掉小数，或者两个相近的数相减，降低其有效位。

简介第一篇文章《OpenCL：连接并行世界的桥梁》是对 OpenCL 主题内容的一个简要介绍。它解决了 OpenCL 中程序（尽管不太准确，但亦称为一个内核）与 MQL5 的外部（主机）程序之间交互的基本问题。有些语言的性能（比如向量数据类型的使用），都是通过 pi = 3.14159265... 的计算举例证明。某些情况下程序的性能有可观的优化空间。但是，前文所述的

原文：Computer Vision Metrics 协议：CC BY-NC-SA 4.0 七、基础事实数据、内容、指标和分析买真理，不卖真理。 ——箴言 23:23 本章讨论了几个与真实情况数据相关的主题，真实情况数据是计算机视觉度量分析的基础。我们通过例子来说明基础数据设计和使用的重要性，包括手动和自动方法。然后，我们提出了一种方法和相应的真实情况数据集，用于测量与人类视觉系统响应和人类期望相比的兴趣点检测器响应。此处还包括在第五章中开发的一般稳健性标准和一般视觉分类法的应用示例，应用于假设真实情

在第三章中，我们讨论了数据管理和数据使用的排序。那一章描述了 DPC++ 中图形背后的关键抽象:依赖性。内核之间的依赖关系基本上是基于内核访问的数据。内核在计算输出之前需要确定它读取了正确的数据。我们描述了对确保正确执行很重要的三种类型的数据依赖。第一种是写后读(RAW ),发生在一个任务需要读取另一个任务产生的数据时。这种类型的依赖描述了两个内核之间的数据流。第二种依赖发生在一个任务需要在另一个任务读取数据后更新数据的时候。我们称这种类型的依赖为读后写(WAR)依赖。

在这一章中，我们首先介绍了async_node类，它增强了流程图的功能，可以处理脱离流程图控制的异步任务。在第一个简单的Async世界的例子中，我们展示了这个类和它的伙伴gateway接口的使用，这对于将来自异步任务的消息重新注入流图是有用的。然后，我们激发了这个扩展与 TBB 流图的相关性，如果我们认识到阻塞 TBB 任务会导致阻塞 TBB 工作线程，这就很容易理解了。async_node允许在流程图之外分派异步工作，但在等待异步工作完成时不会阻塞 TBB 工作线程。

我们将使用 PySyft 实现一个联邦学习模型。PySyft 是一个用于安全和私有深度学习的 Python 库。理解强化学习中自我游戏的第一步Photo byonUnsplash更新:学习和练习强化学习的最好方式是去 http://rl-lab.com虚拟游戏是一个博弈论概念。它包括分析游戏，找出在零和游戏中面对对手时采取的最佳策略。这通常是一个沉重的主题，所以我们将从一些重要的定义开始，然后我们将解释虚拟游戏算法。不久以前，大多数软件都是和它们各自的硬件一起永久发布的，没有办法改变它。

OpenCL和异构编程

608

社区成员

574

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章