请教大家几个问题哈,哎,最近实验室快把我逼疯了。。
1、用一维的block和thread,也就是带状分布,请问每个block里面的thread数目一般怎么设置呀?对整个性能是怎么影响的?师兄说一般是256?哎 。。。
2、我在kernel程序里,想定义一个数组,比如 int a[3],是不是这个就在local memory分配内存了?那要是想在寄存器里怎么办(速度会快)?要是写成int a[0], a[1], a[2],问题是在下面的程序里不能用循环了。。。5555
3、在kernel程序用share memory静态分配内存时,分配的内存就是每个线程需要的?还是分配每个block需要的?
每个线程处理的东西彼此不相关,是不是不用写___synthreads()呀
头晕了都。。。可能对GPU工作的原理还不是很清楚。。。哎。。。。
拜托大家!