在kernel函数中，同样是for循环为什么一个并行，一个是串行？（附代码）

dfingeng 2016-09-22 12:09:19

以下代码来自 http://blog.csdn.net/yanghangjun/article/details/6067534/ 这片帖子的《Thread的同步》这一小节

__global__ static void sumOfSquares(int *num, int* result,
clock_t* time)
{
extern __shared__ int shared[];
const int tid = threadIdx.x;
const int bid = blockIdx.x;
int i;
if(tid == 0) time[bid] = clock();
shared[tid] = 0;
for(i = bid * THREAD_NUM + tid; i < DATA_SIZE;
i += BLOCK_NUM * THREAD_NUM) {
shared[tid] += num[i] * num[i];
}

__syncthreads();
if(tid == 0) {
for(i = 1; i < THREAD_NUM; i++) {
shared[0] += shared[i];
}
result[bid] = shared[0];
}

if(tid == 0) time[bid + BLOCK_NUM] = clock();
}

根据帖子的说明，第一个for循环（ __syncthreads()之前的for）是并行计算，而 if(tid == 0)语句里面的for是指在Thread0串行执行，这是为什么？
难道不是NVCC在编译的时候，遇到循环就自动分配到不同的线程中并行进行吗？
刚入门，还请多多指教

...全文

941 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

dfingeng 2016-10-31

打赏
举报

回复

引用 1 楼 andyise 的回复:

const int tid = threadIdx.x; const int bid = blockIdx.x; 编译器根据这两个量来确定是否并行化

那我是不是可以理解成，如果后面的for循环里如有使用 tid或者bid这两个变量，则编译器编译的时候就会是多线程并行计算的，如果我自定义一个int型变量，而且其值比如是i++，则编译器不会将其列为并行计算

andyise 2016-09-26

打赏
举报

回复

const int tid = threadIdx.x; const int bid = blockIdx.x; 编译器根据这两个量来确定是否并行化

哪些在什么条件编译其次，根据不同产品方案，一定要修改代码，不可避免要修改编译脚本很多同学只懂得简单的添加一个编译驱动，如何选择配置文件，内核这套编译体系工作的本质非常模糊或者不清楚。本课程分析内核vm...

一、背景首先我一直有一个疑问？核函数中线程是如何执行的，他的并行性的执行机制是什么？同一个warp是并行的，不同warp间是串行的吗因此我们开始学习一下：二、CUDA与GPU名词解析首先我们要明确：SP（streaming Processor，流处理器），SM（streaming multiprocessor，流多处理器）是硬件（GPU hardware）概念。而thread，block，grid，warp是软件上的（CUDA）概念。 2.1 （1）SP SP是最基本的处...

问题：能否在主机端创建CPU多线程，在每个线程里调用设备端核函数的caller函数，进而实现进一步的并行运行。例如有5张图片，对于每张图片都有N个GPU线程对其进行像素操作，但是此时是逐一对这5张图片处理的，想在主机端创建5个CPU线程，每个线程里进行传输到设备端–>设备端GPU多线程处理–>结果返回主机端这一系列操作，实现五张图片同时处理此方法能否实现：不能只存在一个流时(默认的流)，所有调用核函数的指令将被存在一个队列中，依次执行。因此直接使用CPU多线程调用kernel函数不能

一.CUDA是什么这里仅简单介绍一下主要概念，如下： 1.主机将CPU及系统的内存（内存条）称为主机。 2.设备将GPU及GPU本身的显示内存称为设备。 3.线程(Thread) 一般通过GPU的一个核进行处理。 4.线程块(Block)

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章