如何实现并发执行以及数据传输的优化?

senlinshouhu 2014-03-14 05:38:06
朋友们,很想了解一下在AMD的机器上使用OpenCL编程时,如何实现如何实现并发执行以及数据传输的优化?谢啦!
...全文
214 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
zenny_chen 2014-03-17
  • 打赏
  • 举报
回复
这两个问题都很大。数据并行关键还是取决于你算法的数据处理模型。GPU擅长一条指令对大量相互独立的数据进行操作。如果数据之间的处理因相互依赖而先后次序,那么并行度就降低了。太多的分支、多层次的循环都会对GPU性能产生影响。

而数据传输这块主要还是看你具体问题了。尽量采用local memory来降低对global memory的访问。而HSA体系下,就不存在数据传输这问题了。GPU可直接访问CPU端分页好的虚拟地址~
lcwyylcwyy 2014-03-15
  • 打赏
  • 举报
回复
是内核的并发执行吗?很多时候需要具体问题具体分析,内核的话有乱序执行选项,还有在不同设备上的并发执行,所以,能不鞥具体点?数据传输优化的话,最新的技术好像是hUMA,不过好像只有APU 7850支持。还是问的具体一点吧:)

604

社区成员

发帖
与我相关
我的任务
社区描述
异构开发技术
社区管理员
  • OpenCL和异构编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧