有关cudaMemcpyAsync的疑问
能不能创建两个流 streams1,streams2;
执行两段cudaMemcpyAsync(,,host->dev,streams1)
cudaMemcpyAsync(,,host->dev,streams2);
实现两组数据的并行host->dev的传输,
我亲测了一下发现并没有实现并行的传输,有可能是显卡的不支持AsyncCount=1;
这件事有点矛盾,假设总的带宽就是1M那么第一个传递开始的时候相当于已经把传输的通道堵塞满了,并行与否没有影响啊?