CUDA stream并行不支持fermi?
本人GTX460, deviceOverlap属性显示为1, 运行SDK中的simpleStream程序, stream完全并行不起来,使用CUDA profile分析过,所有stream都是串行。
而使用tesla 的C2075测试,deviceOverlap为2,并行拷贝比不用stream快了一倍左右。
文档中说,只要deviceOverlap为1就可以执行内存块拷贝和kernel的并行了,然而在许多fermi GTX460机器上测试都执行不起来,结果是串行。
请问有没有做过这方面测试的,大家一起讨论一下吧!