我的核函数数据量比较小,占不满4090的计算资源,而且还需要对计算结果进行回传,要进行很多次。
我使用流进行核函数并行,让数据计算与传输同时进行达到隐藏延迟的目的。
因本人比较菜,遇到如图问题,一开始并行的很好,但是为什么后半段效果就完全没有呢。而且从最上方蓝条看计算资源也没有占满(不知道那个是不是这个意思,猜的)
求大佬指点
589
社区成员
2,924
社区内容
加载中
试试用AI创作助手写篇文章吧