CUDA中最多可以设置多少个blocks

BinGo 2012-03-09 08:27:15

linux下执行SDK的结果是：



Device 0: "Tesla T10 Processor"

  CUDA Driver Version:                           4.0

  CUDA Runtime Version:                          4.0

  CUDA Capability Major/Minor version number:    1.3

  Total amount of global memory:                 4294770688 bytes

  (30) Multiprocessors x ( 8) CUDA Cores/MP:     240 CUDA Cores

  Total amount of constant memory:               65536 bytes

  Total amount of shared memory per block:       16384 bytes

  Total number of registers available per block: 16384

  Warp size:                                     32

  Maximum number of threads per block:           512

  Maximum sizes of each dimension of a block:    512 x 512 x 64

  Maximum sizes of each dimension of a grid:     65535 x 65535 x 1

  Maximum memory pitch:                          2147483647 bytes

  Texture alignment:                             256 bytes

  Clock rate:                                    1.30 GHz

  Concurrent copy and execution:                 Yes

  # of Asynchronous Copy Engines:                1

  Run time limit on kernels:                     No

  Integrated:                                    No

  Support host page-locked memory mapping:       Yes

  Compute mode:                                  Default (multiple host threads                                                                           can use this device simultaneously)

  Concurrent kernel execution:                   No

  Device has ECC support enabled:                No

  Device is using TCC driver mode:               No

根据：
Maximum number of threads per block: 512
Maximum sizes of each dimension of a block: 512 x 512 x 64
Maximum sizes of each dimension of a grid: 65535 x 65535 x 1

每个块最多512个线程。

那么，每个网格最多可以有多少个块？

...全文

495 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

BinGo 2012-03-09

打赏
举报

回复

The number of thread blocks in a
grid is usually dictated by the size of the data being processed or the number of
processors in the system, which it can greatly exceed.

遗传算法TSP_CUDA 一种遗传算法，可使用CUDA体系结构（GPU）为TSP（旅行商问题）找到最佳解决方案。这是我在USF进行的并行和分布式处理课程的最后一个项目，与Berkeley在2015年Spring发布的“并行计算机的应用程序”一起完成的。该项目的目的是使自己熟悉遗传算法的设计和实现，重点是学习如何在CUDA架构以及C ++的OpenMP库上编写并行代码。概述：该项目将在德克萨斯大学奥斯汀分校的Stampede.tacc超级计算机上运行。该代码在踩踏群集的单个节点上运行，此刻使用Nvidia的CUDA调用单个GPU。在CUDA中，执行内核（GPU功能），并由块和线程组成。每个块最多可以有1024个线程，每个内核可以有〜65000个块。我设计了一种算法，以便在每个GPU上创建一个填充，该填充由启动内核的NTHREADS * NBLOCKS组成。例如，在一个流行

蒙特卡罗期权 CUDA C++ 中期权定价的蒙特卡罗模拟。目前支持香草欧洲电话。使用说明编辑源代码以设置合约参数。假设 CUDA 工具包是从 NVIDIA ( ) 安装的，编译 nvcc -o mc.o montecarlo.cu 命令行参数： -b blocks设置总-b blocks数（每个运行 1024 条轨迹），默认为 200 -m max per partition设置每次内核调用的最大块数，默认为 500 -N time steps设置每个轨迹的时间步数，默认为 500 --help打印有效参数的列表内核超时内核超时存在问题。如果运行此程序的卡还驱动显示器，则运行超过操作系统指定时间的内核将被终止。为了解决这个问题，我编写了一个块分区系统来将内核调用拆分为顺序运行的较小分组。默认值为每组最多 500 个块。此外，使用超过 9000 个时间步长可能需要每组

Blocks 早期的卡，最多支持65535个blocks, 后面的卡最多可以支持231−1=21474836472^{31}-1=2147483647231−1=2147483647 可以理解为blocks可以随便造，主要是要把threads的大小选好 Threads 一般来讲每一个block不能超过512（Compute Capability 1.x）/ 1024（2.x和之后版本）个线程你电脑不旧的话，一般都是不超过1024 每个块的线程数应该是warp size大小的整数倍，在所有

1. Cuda 线程的 Grid 架构 Cuda 线程分为 Grid 和 Block 两个级别，Grid、Block、Thread 的关系如下图。一个核函数目前只包括一个 Grid，也就是图中的 Grid0。一个 Grid 可以包括若干 Block，具体数量的上限没有查到。一个 Block可以最多包括 512 个 Thread。 2. GPU 的 SM 架构 GPU 由多个 SM 处理器构成，一个 SM 处理器包含 8 个 SP 核。一个 SP 核可同时处理 32 个线程，实际上就是同一套指令重

#include "cuda_runtime.h" #include "device_launch_parameters.h" #include <stdio.h> #define N 512 #define K 64 __global__ void printf_base() { printf("Hello \n"); } void printf_bas...

580

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章