社区
CUDA
帖子详情
OPENMP与GPU并行的问题!!急
w408202223
2015-06-30 03:01:52
其中,每个图像卷积操作都是一样的函数,只是图像不同。使用的是同一个GPU即GTX960.
图像大小为640*480.
现在的问题是,我只对一路的图像进行卷积操作时,时间大概在10ms。
但是当四路并行处理时,每路的时间就会增加到35ms左右,而且还会有较大的波动,从20ms到45ms不等的波动。
我现在怀疑是GPU的计算单元即SM SP同时对四路进行处理,造成了等待延迟造成的。不知道有没有大神能帮我看看,问题到底出在哪里?急
...全文
1000
5
打赏
收藏
OPENMP与GPU并行的问题!!急
其中,每个图像卷积操作都是一样的函数,只是图像不同。使用的是同一个GPU即GTX960. 图像大小为640*480. 现在的问题是,我只对一路的图像进行卷积操作时,时间大概在10ms。 但是当四路并行处理时,每路的时间就会增加到35ms左右,而且还会有较大的波动,从20ms到45ms不等的波动。 我现在怀疑是GPU的计算单元即SM SP同时对四路进行处理,造成了等待延迟造成的。不知道有没有大神能帮我看看,问题到底出在哪里?急
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
w408202223
2015-08-13
打赏
举报
回复
引用 3 楼 zj19930505 的回复:
楼主,你openmp+cuda 在windows下能跑吗?
可以啊 没有问题的
熊猫视觉
2015-07-15
打赏
举报
回复
楼主,你openmp+cuda 在windows下能跑吗?
熊猫视觉
2015-07-15
打赏
举报
回复
[quote=引用 1 楼 linxxx3 的回复:] 请问一下,我程序在双重循环里面重复调用kernel处理图像。时间只提速三倍左右,有什么办法优化这个程序呢?谢谢!
linxxx3
2015-07-02
打赏
举报
回复
两个要注意的点,1. 每一路处理使用的grid、block数量配置,不能用掉全部的GPU资源; 2. 每了一路处理需要指定一个不同的stream,关于stream去看手册。 默认的stream 0 上的kernel会排队运行,并不能并行。 lz的应用场景里,如果每一路运算都是gpu完成,没有cpu计算量的话,用多线程没有必要。因为gpu kernel在cpu提交后,是异步返回的,依次提交4个kernel运行,效果是一样的,不过4路kernel仍然必须是4个不同的stream。
CPU-
OpenMP
和
GPU
-CUDA
并行
计算技术对矩阵乘法运算的加速效果分析.pdf
CPU-
OpenMP
和
GPU
-CUDA
并行
计算技术对矩阵乘法运算的加速效果分析.pdf
实战matlab之
并行
程序设计
第一个分太高了要50,过分,通过阅读和学习,读者可以掌握基于多种平台(多核、多处理器、集群和
GPU
等),利用多项技术(Matlab
并行
计算工具箱、多线程MEX文件、
OpenMP
和
GPU
等),学习理解Matlab
并行
程序设计的原理、方法和技巧。《实战Matlab之
并行
程序设计》共分l0章:第1章为Matlab开发环境和程序设计基础;第2章为利用parfor对for循环进行
并行
;第3章为SPMD
并行
结构;第4章为其他Matlab
并行
结构;第5章为Matlab
并行
计算数据类型;第6章为Matlab通用
并行
程序设计;第7章为MDCE配置;第8章为创建多线程MEX文件;第9章为在Matlab中应用
OpenMP
进行
并行
计算;第10章
《实战Matlab之
并行
程序设计》
本书对基于Matlab 的
并行
程序设计的原理进行了深入的剖析,并结合各章给出的大量实例对基于Mat—lab 的
并行
计算程序设计方法和技巧给出了详细的说明。通过阅读和学习本书的内容,读者可以掌握基于多种平台(多核、多处理器、集群和
GPU
等),利用多项技术(Matlab
并行
计算工具箱、多线程MEX 文件、
OpenMP
和
GPU
等),学习理解Matlab
并行
程序设计的原理、方法和技巧。全书共分l0 章:第1 章为Matlab 开发环境和程序设计基础;第2 章为利用parfor 对for 循环进行
并行
;第3 章为SPMD
并行
结构;第4 章为其他Matlab
并行
结构;第5 章为Matlab
并行
计算数据类型;第6 章为Matlab 通用
并行
程序设计;第7 章为MDCE 配置;第8 章为创建多线程MEX 文件;第9 章为在Matlab 中应用
OpenMP
进行
并行
计算;第10 章为利用
GPU
并行
执行Matlab 程序。书中附录共包括三个部分,即MEX 文件基础知识、用户配置项和Matlab
并行
计算常用概念说明。
多类积分函数华为鲲鹏CPU 与 CPU +
GPU
性能对比.docx
OpenMP
与 CUDA性能比较!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
0积分下载《实战Matlab之
并行
程序设计》程序代码
《《《0积分下载》》》《实战Matlab之
并行
程序设计》通过阅读和学习,读者可以掌握基于多种平台(多核、多处理器、集群和
GPU
等),利用多项技术(Matlab
并行
计算工具箱、多线程MEX文件、
OpenMP
和
GPU
等),学习理解Matlab
并行
程序设计的原理、方法和技巧。《实战Matlab之
并行
程序设计》共分l0章:第1章为Matlab开发环境和程序设计基础;第2章为利用parfor对for循环进行
并行
;第3章为SPMD
并行
结构;第4章为其他Matlab
并行
结构;第5章为Matlab
并行
计算数据类型;第6章为Matlab通用
并行
程序设计;第7章为MDCE配置;第8章为创建多线程MEX文件;第9章为在Matlab中应用
OpenMP
进行
并行
计算;第10章为利用
GPU
并行
执行Matlab程序。书中附录共包括三个部分,即MEX文件基础知识、用户配置项和Matlab
并行
计算常用概念说明。书中所有的源代码均可在出版社网站的下载中心和Matlab中文论坛中下载。除特别说明之外,其开发和编译环境均为Matlab2010与Visual C2010。
CUDA
581
社区成员
2,919
社区内容
发帖
与我相关
我的任务
CUDA
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
复制链接
扫一扫
分享
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章