小型规模化优化

yanghuatian 2013-06-01 02:17:50

最近本人需要做一个CUDA的优化没因为程序算法的复杂性，只能对其局部进行并行化，且有大量重复操作。
即,需要用到的CUDA操作非常频繁且规模较小。
需要如何改进可使得程序优化：



short *DCT_Mat;

cudaMalloc((void**)&DCT_Mat,SIZE);

cudaMemcpy(DCT_Mat,DctMat,SIZE,cudaMemcpyHostToDevice);



dim3 dimBlock(8,8);

dim3 dimGrid(1,1);



Transform<<<dimGrid,dimBlock>>>(DCT_Mat);  //所花时间1ms



cudaMemcpy(DctMat,DCT_Mat,SIZE,cudaMemcpyDeviceToHost);

正如程序所示，该代码所需要操作的数据大小，只有8*8的矩阵。
在CPU下源代码花费时间为6ms，而CUDA下却进28ms之多，
经测试大量的时间花在了内存的申请和矩阵的值传递上。
请大神指点，如何设置可以优化这种情况的时间使用。

...全文

127 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

linxxx3 2013-06-03

打赏
举报

回复

如果每次都是无关的数据，类似流式的，那么可以攒到一定规模一起计算；如果每一次计算都和上次的结果相关，类似迭代的，可以把所有计算放到GPU上，只在初始和结束拷贝一次数据，中途不和CPU打交道。

最近的三年多时间，随着容器技术的火爆及Kubernetes成为容器编排管理的标准，国内外厂商均已开始了全面拥抱Kubernetes的转型，无数中小型企业已经落地 Kubernetes，或正走在容器化的道路上。介绍docker的前世今生，了解docker的实现原理，以Django项目为例，教大家如何编写最佳的Dockerfile实现构业务镜像的制作。通过本章的学习，大家会知道docker的概念及基本操作，并学会构建自己的业务镜像，并通过抓包的方式掌握Docker最常用的bridge网络模式的通信。

最近社区讨论规模化敏捷的话题不少，甚至会在几个大规模敏捷框架Scaled Agile Framework®（SAFe®），大规模Scrum（LeSS）...

智能算法：鲸鱼优化算法-附代码文章目录智能算法：鲸鱼优化算法-附代码1.算法原理1.1包围猎物1.2 狩猎行为1.3 搜索猎物1.4 算法流程2. 算法结果：参考文献：摘要：鲸鱼优化算法 (whale optimization algorithm,WOA...

规模化敏捷框架SAFe的项目群层——敏捷发布火车

优化问题一般可分为两大类：无约束优化问题和约束优化问题，约束优化问题又可分为含等式约束优化问题和含不等式约束优化问题。无约束优化问题含等式约束的优化问题含不等式约束的优化问题 2 求解策略针对...

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章