CUDA 大量数据做FFT 从内存读取数据时时间太长

qq_16808349 2017-04-12 03:59:25

每秒有64*16K点的数据存在TXT文件里
我现在的处理过程是这样的
将整个TXT用fread读到内存再用sscanf从内存中取出给h_signal赋值
后边用了cudaHostAlloc给h_signal分配内存用cudaMalloc给d_signal分配内存
然后用cudaMemcpyAsync内存拷贝开了多个流

现在遇到的问题是 64个文件每个文件有16K点如果是循环处理64个文件现在用的是循环大概需要2.4S
for(int i=0;i<64;i++)
{
float *data;
data = Data2Ram(FileName[i]);//这个是从文件里提取float数据的
runTest(data,stream[i]);//这个是在GPU上的一些操作的
}
如果是合并成一个文件需要2S

用visual ProFiler分析可以看到实际上计算的时间是很短的大部分时间是在从主机的内存中读数

有看到说用零拷贝内存分析以后感觉零拷贝内存对于这种需要一直用PCI-E总线传数据的感觉也不是很合适

所以发帖问问有没有大神可以给出一些建议

...全文

1190 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_16808349 2017-04-12

打赏
举报

回复

CPU可否开多个线程同时读取数据上边我写的那个循环执行的感觉背离了GPU可并行性有没有好的处理方法第一次搞这个求助

在现代高性能计算领域，MATLAB和CUDA的结合使用可以极大地提升计算速度，特别是在处理大量数据和复杂的数值模拟时。MATLAB是一种广泛使用的数学计算环境，而CUDA是NVIDIA开发的一种并行计算平台，用于利用GPU（图形...

1. **减少全局内存访问**：全局内存访问是GPU计算中的瓶颈之一，因此优化设计时尽量减少对全局内存的读写操作，提高计算效率。 2. **全局内存合并访问**：通过批量处理数据，合并多个内存访问请求，以减少内存带宽...

8. **NVRTC**：NVIDIA Runtime Compiler，用于在运行时编译CUDA内核代码，使得程序能够在不预先知道具体硬件配置的情况下动态生成和加载GPU代码。 9. **nvToolsExt**：NVIDIA Tools Extension库，提供了一些诊断和...

- OpenGL/DirectX Interoperability：CUDA可以与OpenGL和DirectX的帧缓冲和顶点缓冲进行交互，直接读写数据，但CUDA上下文一次只能操作一个Direct3D设备，并且对于某些DirectX版本的支持有限。 Thread Block是CUDA...

2. **数据预处理**：在进行傅里叶变换前，可能需要对输入图像进行一些预处理，如读取图像数据到GPU内存，可能还需要调整数据格式以适应CUFFT的要求。 3. **创建和配置FFT计划**：在CUFFT中，需要创建一个变换计划，...

590

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章