麻烦请问一个GPU优化的问题？

c404940607 2015-08-11 05:32:01

想请教各位大神一个GPU优化的问题（CUDA完全没经验啊...）。
这个问题是这样的。首先是大量hash（大约50次左右），每个hash得出value是一个有序
倒排表(里面存储的是一个一个的数字，长度大约只有10左右)。然后需要将这几百个倒
排表合并成一个有序表、去重（这个长数组应该shared memory放不下）。这整个流程要
执行很多次。
现在的问题是，我是该;
1.让每个线程执行自个执行整个流程，然后开很多个线程并行执行。
2.让一个block里的所有协作排序，然后再协作去重。
我知道cuda本身的提供的库排序很快，但是感觉这个问题本身可以合并得来；而且如果
采用第二种方法的话，可以隐藏一些内存读取（因为hash这个过程本身有少量的分支，
一个block里的hash没法安排，大约能隐藏60%的内存读取）；而且可以充分利用每一个
线程（第一种的话每个block可能不一定能凑够32）。

——————————————分隔线--------------------------------
还有就是cuda官方的那个reduction的例子。求和可以理解，但是感觉求最大和最小值，
有分支啊，这样不是不符合尽量避免分支的原则了么，为什么依然速度有提升？

...全文

1066 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Shimejing 2015-08-18

打赏
举报

回复

请问下你在线吗？我目前在调试android，遇到个3D跑分不高，应该也是GPU优化的问题吧，请教下在kernel里面需要怎么做，我一点概念不知道

购买新的图形卡（GPU）可能很困难，尤其是如果涉及您所不熟悉的所有技术问题。显卡市场上的大多数消费者只需要了解...我们将在这里假设基本熟悉程度，即，您知道GPU代表图形处理单元，而图形卡是包含一个或多个GPU..

AI 芯片全面解析与商业项目的 GPU 怎么选？通用芯片CPU专用芯片GPUFPGAASIC商业项目的芯片怎么选通用芯片 CPU 专用芯片 GPU FPGA ASIC 商业项目的芯片怎么选

另一方面，GPU/渲染优化是一个非常宽泛的课题，它不仅涉及到针对底层GPU的架构做出的相关优化，图形API的设计和使用的优化，也会涉及到CPU中渲染数据准备的优化，或者shader编写的优化等多方面的内容。 GPU ...

GPU优化比较麻烦的是，不一定优化会起作用，因此要把所有方法都试一遍，才能知道是（优化前，优化A，优化B ...）那种最适合自己的问题参考学习视频链接：https://pan.baidu.com/s/1NlFZS2EHdY86z09AlR41Jg 提取...

在最简单的情况下，帧缓冲区只有一个，这时帧缓冲区的读取和刷新都都会有比较大的效率问题。为了解决效率问题，显示系统通常会引入两个缓冲区，即双缓冲机制。在这种情况下，GPU 会预先渲染好一帧...

CUDA高性能计算讨论

353

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章