cudamemcpy cpu和gpu数据传输的问题
各位大大: 最近我在做一个视频处理方面的一些东西,就是一帧帧解码出来数据然后遍历帧上像素做处理,所以复杂度为视频帧数*帧宽*帧高*处理fun(); 由于fun()的时间比较短,所以主要依赖前三项,由于像素间没有依赖,而帧间有依赖,所以我把每帧数据丢到gpu上去计算,的确最终统计计算时间变的很短,但是cudamemcpy的时间也就是cpu传输到gpu的时间变的很长,相当于主要复杂度变为了视频帧长*cudamemcpy的时间,而总的时间反而变慢了,求各位大大指教 谢谢