如何评估kernel函数内部子模块的耗时
请教大神,我在kernel函数内部,不停地产生伪随机的原始数据,然后对原始数据进行算法处理,最后,定时(比如每隔10秒)将数据处理的结果传回CPU端。现在,我想通过profile评估kernel函数内部各个子模块的耗时,却发现行不通。因为profile只会显示整个kernel函数的耗时,而不能再细化到子模块。想请教,如何看到各个子模块的耗时。难道我只能把各个子模块拆分为单独的kernel函数才能评估耗时么?但这样就会导致GPU与CPU之间的数据交互变得复杂且低效。