下面代码为何效率很低?

latinhoa 2011-09-20 03:57:03
具体代码不写了,只写出代码段。
shz[]数组是存储在share memory中的数组。
gl[]是存储在全局存储器中的数组。
第一种是shz[i] = gl[(1<<19)*i];
另一种是shz[i] = gl[(1<<11)*i];
其他的block和thread的设置都是一样的,为什么运算时间会相差几倍呢?GPU的全局存储器有什么访问规律么?
...全文
98 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
ukyolei 2011-10-29
  • 打赏
  • 举报
回复
对global memory跨距访问时跨距越大延迟越高

231

社区成员

发帖
与我相关
我的任务
社区描述
CUDA on Windows XP
社区管理员
  • CUDA on Windows XP社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧