在做GPU编程时，要根据其特性进行写KERNEL，如何搞清数据划分和并行任务的实现

eawang 2020-04-30 05:59:10

HI，请问在做GPU编程时，要根据其特性进行写KERNEL，如何搞清楚数据划分或者是任务并行达性能接近最优？

举例：



const int ARRAY_SIZE = 1000;

    size_t globalWorkSize[1] = { ARRAY_SIZE };

    size_t localWorkSize[1] = { 1 };



    // Queue the kernel up for execution across the array

    errNum = clEnqueueNDRangeKernel(commandQueue, kernel, 1, NULL,

                                    globalWorkSize, localWorkSize,

                                    0, NULL, NULL);

    if (errNum != CL_SUCCESS)

    {

        std::cerr << "Error queuing kernel for execution." << std::endl;

        Cleanup(context, commandQueue, program, kernel, memObjects);

        return 1;

    }

size_t globalWorkSize[1] = { ARRAY_SIZE };
size_t localWorkSize[1] = { 1 };

如何设置才能达到最优？

...全文

2849 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

34 高程分裂处理当瓦片没有高程数据，那么子节点以及其他后代节点该如何共享父节点的数据 35 lesson-734-高程瓦片分裂处理(2)-算法实现高程数据分裂算法实现实现对高程数据的切分，并对特殊数据进行处理 36 高程...

目录1 介绍篇线程篇进程篇异步篇 [GPU篇][5] 设计并行编程任务分解：将程序分解为任务，在不同处理器上执行以实现并行化。（可以使用以下两种方法）领域分解：将问题数据分解（当处理的数据量很大时，分开处理）功能性分解：将问题分解为任务（把大的任务分解为多个小任务处理）任务分配：将任务分配到各个处理器上（目的是负载均衡）聚集：将小任务与大任务合并到一起从而改进性...

GPU(Graphics Processing Unit)多核并行处理单元是当前科技领域里最热门的硬件之一。如今GPU已经集成在笔记本电脑、平板电脑、服务器和手机等各类设备中。由于其高性能的计算能力及其独特的编程模型（比如CUDA），使得GPU在科技界占有重要地位。同时，GPU的多线程编程技术也越来越受到关注。本文将从多线程编程的基本概念出发，介绍基于CUDA编程模型的多线程编程技术。然后，介绍如何通过CPU多核并行和GPU多核并行两种方式提升GPU的运算性能。

在不同的架构上GPU和CPU的情况不一样，在电脑上GPU可以有很大的DDR显存存放数据,SOC上GPU的显存和CPU是同一个DDR，GPU可能会提供一个小的SRAM作为缓存该缓存不用于CPU和GPU交互数据。这个章节的细节内容建议查看“OpenCL Programming Guide”这本书。在Opencl编程中和普通CPU编程有很大的不同，提供给GPU的共享内存需要通过clCreateBuffer或clCreateImage申请。传输变量内存地址，传输Kernel的参数都必须通过clSetKernelA

基于GPU实现的高效的并行数据结构(Implementing Efficient Parallel Data Structures on GPUs)现代的GPU，在计算历史中第一次把数据并行、流式计算平台放入几乎每台台式计算机和笔记本电脑中。一些最近的学术派研究论文——以及本书的其他章节——演示了这些流式处理器有能力加速范围很广的应用程序，而不仅仅是它们本来所针对的实时渲染。然而，要利用这个计

OpenCL和异构编程

602

社区成员

575

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章