如何评估kernel函数内部子模块的耗时

larlyii 2020-12-08 02:35:56
请教大神,我在kernel函数内部,不停地产生伪随机的原始数据,然后对原始数据进行算法处理,最后,定时(比如每隔10秒)将数据处理的结果传回CPU端。现在,我想通过profile评估kernel函数内部各个子模块的耗时,却发现行不通。因为profile只会显示整个kernel函数的耗时,而不能再细化到子模块。想请教,如何看到各个子模块的耗时。难道我只能把各个子模块拆分为单独的kernel函数才能评估耗时么?但这样就会导致GPU与CPU之间的数据交互变得复杂且低效。
...全文
547 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

357

社区成员

发帖
与我相关
我的任务
社区描述
CUDA高性能计算讨论
社区管理员
  • CUDA高性能计算讨论社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧