请教个简单问题，如果需要的thread数不是block的dimension的整数倍，如何处理呢？

Vulcann 2010-10-18 07:35:47

如题

再加一个block，让那些多余的thread空执行么？

谢谢

...全文

37 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

taseaa 2010-10-18

打赏
举报

回复

做个边界判断。

无心人_过过小日子 2010-10-18

打赏
举报

回复

[Quote=引用楼主 vulcann 的回复:]
再加一个block，让那些多余的thread空执行么？
[/Quote]

是.

初学CUDA，往往拿到代码无从下手，也没有什么明确的思路。我想有必要把前人的经验总结拿出来，便于后来者更快掌握这门技术。对于block和thread的分配问题，有这么一个技巧，每个block里面的thread个数最好是32的倍数，因为，这样可以让计算效率更高，促进memory coalescing。其实，每个grid里面block的dimension维度和size数量，以及每个block里面的

Blocks 早期的卡，最多支持65535个blocks, 后面的卡最多可以支持231−1=21474836472^{31}-1=2147483647231−1=2147483647 可以理解为blocks可以随便造，主要是要把threads的大小选好 Threads 一般来讲每一个block不能超过512（Compute Capability 1.x）/ 1024（2.x和之后版本）个线程你电脑不旧的话，一般都是不超过1024 每个块的线程数应该是warp size大小的整数倍，在所有

撰文 | 柳俊丞一般而言，我们在代码中会看到使用以下方式启动一个 CUDA kernel：cuda_kernel<<<grid_size,block_size,0,...

CUDA优化第一要义是设计block和thread的dimension，这时active block和active warp就必须要考虑了。（一维的同学请回避谢谢）首先通俗地讲一些CUDA优化的常识吧 accurancy：只在关键步骤使用双精度，其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡；建议将双精度放在CPU里计算。异构并行会给项目加分哦 latency：降低延迟需要考虑缓冲

1. CUDA中的grid和block基本的理解Kernel: Kernel不是CPU，而是在GPU上运行的特殊函数。你可以把Kernel想象成GPU上并行执行的任务。当你从主机（CPU）调用Kernel时，它在GPU上启动，并在许多线程上并行运行。Grid: 当你启动Kernel时，你会定义一个网格（grid）。网格是一维、二维或三维的，代表了block的集合。Block: 每个block内部包...

580

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章