kernel每次运行的时间都相差很大

cs870101 2009-05-21 10:24:31

不断增加每个block中线程的数目，但是当线程数目增加到一定程度时，每次运行kernel的时间都相差很大。
利用Cuda Visual Profiler在该线程下启动失败。故推测是资源超了
观察了一下每个线程使用的寄存器为35个，此时，每个线程数为224，35 * 224 = 7840 < 8192也没有超啊
PS：显卡为Quadro Fx 5600

...全文

142 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

无心人_过过小日子 2009-05-22

打赏
举报

[Quote=引用楼主 cs870101 的帖子:]
不断增加每个block中线程的数目，但是当线程数目增加到一定程度时，每次运行kernel的时间都相差很大。
[/Quote]

每个sm中只有8个sp,换句话说,只要有一个warp(32个线程),计算就"满"了,所以,LZ在增加每个block中线程的数目时
重叠的是取数据时间,当增加到一定程度时,取数据时间重叠完了,自然运行时间要直线上升.

[Quote=引用楼主 cs870101 的帖子:]
观察了一下每个线程使用的寄存器为35个，
[/Quote]

是cubin文件中的结果吗?

哪些在什么条件编译其次，根据不同产品方案，一定要修改代码，不可避免要修改编译脚本很多同学只懂得简单的添加一个编译驱动，如何选择配置文件，内核这套编译体系工作的本质非常模糊或者不清楚。本课程分析内核vm...

运行于内核空间，处于中断上下文，与任何进程都无关，处理某个特定的中断包含了所有情况，边边角角也不例外。例如CPU空闲时，内核就运行一个空进程，处于进程上下文，但运行于内核空间微内核架构（Micro ...

所以在wait_event_interruptible_hrtimeout中，一旦ctx->wait未能就绪，即使设置超时时间为0，也很可能要调用一次schedule，这导致iowait时间相差很大，也还很大幅度伤害了性能。而这个问题也被5f785de588735306ec...

Linux Kernel BUG:soft lockup CPU 1.线上内核bug日志 kernel: Deltaway too big! 18428729675200069867 ts=18446743954022816244 write stamp =18014278822746377 kernel:------------[ cut here ]-----------...

General setup 常规设置 Cross-compiler tool prefix CONFIG_CROSS_COMPILE 交叉编译工具前缀(比如"arm-linux-"相当于使用"make CROSS_COMPILE=arm-linux-...Local version - append to kernel rel...