社区
CUDA
帖子详情
kernel每次运行的时间都相差很大
cs870101
2009-05-21 10:24:31
不断增加每个block中线程的数目,但是当线程数目增加到一定程度时,每次运行kernel的时间都相差很大。
利用Cuda Visual Profiler在该线程下启动失败。故推测是资源超了
观察了一下每个线程使用的寄存器为35个,此时,每个线程数为224,35 * 224 = 7840 < 8192也没有超啊
PS:显卡为Quadro Fx 5600
...全文
142
1
打赏
收藏
kernel每次运行的时间都相差很大
不断增加每个block中线程的数目,但是当线程数目增加到一定程度时,每次运行kernel的时间都相差很大。 利用Cuda Visual Profiler在该线程下启动失败。故推测是资源超了 观察了一下每个线程使用的寄存器为35个,此时,每个线程数为224,35 * 224 = 7840 < 8192也没有超啊 PS:显卡为Quadro Fx 5600
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
无心人_过过小日子
2009-05-22
打赏
举报
回复
[Quote=引用楼主 cs870101 的帖子:]
不断增加每个block中线程的数目,但是当线程数目增加到一定程度时,每次运行kernel的时间都相差很大。
[/Quote]
每个sm中只有8个sp,换句话说,只要有一个warp(32个线程),计算就"满"了,所以,LZ在增加每个block中线程的数目时
重叠的是取数据时间,当增加到一定程度时,取数据时间重叠完了,自然运行时间要直线上升.
[Quote=引用楼主 cs870101 的帖子:]
观察了一下每个线程使用的寄存器为35个,
[/Quote]
是cubin文件中的结果吗?
理解
kernel
Makeiflie 编译
哪些在什么条件编译 其次,根据不同产品方案,一定要修改代码,不可避免要修改编译脚本 很多同学只懂得简单的添加一个编译驱动,如何选择配置文件,内核这套编译体系工作的本质非常模糊或者不清楚。本课程分析内核vm...
Linux
Kernel
Development 学习
运行
于内核空间,处于中断上下文,与任何进程都无关,处理某个特定的中断 包含了所有情况,边边角角也不例外。例如CPU空闲时,内核就
运行
一个空进程,处于进程上下文,但
运行
于内核空间 微内核架构(Micro ...
朱辉(茶水): Linux
Kernel
iowait
时间
的代码原理
所以在wait_event_interruptible_hrtimeout中,一旦ctx->wait未能就绪,即使设置超时
时间
为0,也很可能要调用一次schedule,这导致iowait
时间
相差
很大
,也还
很大
幅度伤害了性能。 而这个问题也被5f785de588735306ec...
Linux
Kernel
BUG:soft lockup CPU
Linux
Kernel
BUG:soft lockup CPU 1.线上内核bug日志
kernel
: Deltaway too big! 18428729675200069867 ts=18446743954022816244 write stamp =18014278822746377
kernel
:------------[ cut here ]-----------...
Linux
kernel
配置选项
General setup 常规设置 Cross-compiler tool prefix CONFIG_CROSS_COMPILE 交叉编译工具前缀(比如"arm-linux-"相当于使用"make CROSS_COMPILE=arm-linux-...Local version - append to
kernel
rel...
CUDA
581
社区成员
2,919
社区内容
发帖
与我相关
我的任务
CUDA
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
复制链接
扫一扫
分享
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章