cuda by example 这本书中第五章计算向量点积的例子是不是有问题啊?
先是自己写了一下,结果和实际结果有出入,精确度不够。后来直接跑源代码,有同样的问题:
blockDim.x(threadPerBlock)是确定的:256;gridDim.x(blockPerGrid)由向量长度N和blockDim.x决定:blockPerGrid=min(32,(N+threadPerBlock-1)/threadPerBlock).
在这种情况下,如果(N+threadPerBlock-1)/threadPerBlock较小(<32),也就是每个线程只需要计算一次乘法,那么结果就是精确的,否则,就只有前面6、7位是精确的。
想问问有没有跑过这个程序的人知道是咋回事啊??谢谢啦~~