关于线程分段处理的问题
新手,刚接触cuda,有很多问题不解,望大侠指教
有100M个数据, 我想在kernel中用100个block, 每个block 有1k个线程, 每个线程做1k个点的fft处理,然后问题出来了...
1.请问我这样处理的方式有没有问题,感觉和指南里面的操作方式差异很大...
2.关于block和thread的大小设置,我程序中thread最大512的时候,kernel就不运行了..
3.我需要在kernel函数中开辟一定大小的内存用于存放数组或指针,kernel函数运算完成后,显卡对这些内存是怎么管理的
4.如果开辟内存的话,每个block中的开辟的总内存数会相当高,会对执行效率有多大的影响...
恳请各位大侠指教