关于GT430显卡的一个疑惑

saigirl 2013-02-05 10:17:38

GT430显卡用deviceQuery得出核心数是：
( 2) Multiprocessors x ( 48) CUDA Cores/MP: 96 CUDA Cores
warp size 是32.

如果我的理解没有错的话是说有2个SM，每个SM里有48个SP。但是一次指令执行一个warp，即由32个SP完成。但任意时刻只能执行一个warp,这样一个SM中空余的16个SP不是浪费了么？

是我理解有问题么？还是说这样设计有什么别的用处？

...全文

470 34 打赏收藏转发到动态举报

写回复

用AI写文章

34 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_16654789 2014-06-18

打赏
举报

emperro 2014-06-18

打赏
举报

不太懂来学习学习

balian2015 2014-06-18

打赏
举报

这是一个多线程的问题

biscuij 2014-06-18

打赏
举报

实际的实现，一次是以half warp，即16线程一组来执行，同一个warp的另外一半16线程紧接其后被调度。我理解的两个half warp的执行是不能拆开的，所以逻辑上，并行的最小单位是32线程，看你怎么理解。不了解这个细节，对编程也没有影响。

MLYLX 2014-06-18

打赏
举报

我想说这个显卡你拿来干嘛了 ,不好说

sinat_16613645 2014-06-17

打赏
举报

不是很懂的说

超人佳仔 2014-06-17

打赏
举报

我想说这个显卡你拿来干嘛了

超人佳仔 2014-06-17

打赏
举报

我想说这个显卡你拿来干嘛了

爱生活. 2014-06-17

打赏
举报

我想说这个显卡你拿来干嘛了

qq_16613009 2014-06-17

打赏
举报

下载flexled,求积分

sinat_16612855 2014-06-17

打赏
举报

我想说这个显卡你拿来干嘛了

qq_16611689 2014-06-17

打赏
举报

有2个SM，每个SM里有48个SP。但是一次指令执行一个warp，即由32个SP完成。但任意时刻只能执行一个warp,这样一个SM中空余的16个SP不是浪费了么

gunnimadande 2014-06-17

打赏
举报

fermi的架构，只有执行双精度浮点运算的时候，才需要32个SP一起工作，这时候，同时执行的仍然是16线程。GT430没有双精度浮点运算能力

底层弱鸡程序员 2014-06-17

打赏
举报

观望学习！！

ldq6605 2014-06-17

打赏
举报

有2个SM，每个SM里有48个SP。但是一次指令执行一个warp，即由32个SP完成。但任意时刻只能执行一个warp,这样一个SM中空余的16个SP不是浪费了么

ldq6605 2014-06-17

打赏
举报

参数你写的应该没问题，执行的时候，逻辑上按一个warp 32线程来并行，这是CUDA文档上的说法，便于理解。实际的实现，一次是以half warp，即16线程一组来执行，同一个warp的另外一半16线程紧接其后被调度。我理解的两个half warp的执行是不能拆开的，所以逻辑上，并行的最小单位是32线程，看你怎么理解。不了解这个细节，对编程也没有影响。 fermi的架构，只有执行双精度浮点运算的时候，才需要32个SP一起工作，这时候，同时执行的仍然是16线程。GT430没有双精度浮点运算能力，所以48个SP没有问题，不会浪费

ldq6605 2014-06-17