CUDA Occupency讨论

adagio_chen 2014-08-24 08:42:36

加精

今天来谈一下 CUDA 编程中的 occupancy 问题

什么是 occupancy？
Occupancy 被定义为“active threads数量“与“max active threads数量“之比。这里的数量都是指在一个流处理器(SM)上的。

为什么要关心 occupancy？
因为理论上来说，在一个SM上，活动线程数量多，就越有利与指令流水化以及覆盖访存延迟，从而提高程序的效率。实际上来说（按照手册上的说法），occupancy 达到70%以上基本上就可以了。

occupancy 和什么参数相关？
1. block的大小。
2. 寄存器的使用。
3. 共享内存的使用。

以最新的Maxwell架构为例，单个SM上，max active threads=2048，max active blocks=32，可以分配65536个寄存器，以及64K共享内存。

block的大小：
如果一个block有32个线程，那么active threads = 32 * 32 = 1024, 因此，这个时候 occupancy = 1024 / 2048 = 50%
如果一个block有64个线程，那么active threads = 32 * 64 = 2048, 因此，这个时候 occupancy 可以达到100%。由此可知，对于Maxwell架构来说，每个block至少应该要有64个thread以上。

寄存器的影响：
如果一个thread使用了64个寄存器，那么一个SM上最多可以拥有 65536 / 64 = 1024 个active threads ，因此，这个时候 occpancy = 1024 / 2048 = 50%
如果一个thread使用了32个寄存器，那么一个SM上最多可以拥有 65536 / 32 = 2048 个active threads ，因此，这个时候 occupancy = 100%。由此可知，每个thread的寄存器数量尽量不超过32。

共享内存的影响：
如果一个block有64个threads，并且分配了4K共享内存，于是一个SM上最多拥有16个活动block，也就是64 * 16 = 1024个threads。因此这个时候 occpancy = 1024 / 2048 = 50%。由此可知，使用过多的共享内存会降低occpancy

以上的技术分析只是从 occpancy 的角度出发的，实际上提高程序效率的方法有很多，occpancy 只是其中之一。并且低occupancy 也并不一定导致低效率。有兴趣的可以参考一下这篇文章：Better Performance at Lower Occupancy
http://www.cs.berkeley.edu/~volkov/volkov10-GTC.pdf

...全文

703 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

Dios123 2014-08-25

打赏
举报

回复

有道理，block的大小，寄存器的使用和共享内存的使用都与occupancy相关

hugh_z 2014-08-25

打赏
举报

回复

learning

GW786228836 2014-08-25

打赏
举报

回复

YCMyTot 2014-08-25

打赏
举报

回复

学习了，谢谢版主的分享！

hugh_z 2014-08-24

打赏
举报

回复

learning

最近在装pytorch的时候，看到了一个选择CUDA版本的选项之前从来没用过CUDA这玩意，当然也不知道CUDA版本啥玩意，于是找了与一下 CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。百度百科上看的也没看懂，反正能知道自己是什么CUDA版本就完事如图在搜索栏搜NVIDIA 在搜索结果中选NVIDIA Control Pan

【CUDA】cuda安装（windows版）前言官方教程安装工具的准备CUDA toolkit DownloadcuDNN Download2. CUDA 安装与配置过程测试环境是否安装成功2、cuDNN配置运行官方自带的demo 前言 windows10 版本安装 CUDA ，首先需要下载两个安装包 CUDA toolkit（toolkit就是指工具包） cuDNN 官方教程 CUDA：https://docs.nvidia.com/cuda/cuda-installation-guide-mic

目录主要参考一、CUDA/cudnn/CUDA Toolkit/NVCC区别简介二、CUDA Toolkit具体组成三、NVCC简介四、版本管理1、pytorch运行时的CUDA版本（1）查看cuda 运行版本和编译时的版本（2）pytorch寻找可用CUDA的过程：2、nvidia-smi和nvcc显示的CUDA版本3、conda下看到的cudatoolkit版本主要参考显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么写的真的好 Pytorch

参考博客 windows 7 下cuda 9.0 卸载、cuda8.0 安装一、前言对于一个刚玩CUDA菜鸟来说，安装问题就是一个巨大的坑，安装过程里面有很多需要注意的细节，很多自定义的选项，如果漏选，对编译GPU版本的Caffe会出现一些莫名奇妙的问题。为此，会经常出现卸载CUDA，再安装CUDA的问题，所以对于CUDA的卸载与安装就会有一些注意事项，现在总结一下。二、...

Pytorch 使用不同版本的 cuda 　　由于课题的原因，笔者主要通过 Pytorch 框架进行深度学习相关的学习和实验。在运行和学习网络上的 Pytorch 应用代码的过程中，不少项目会标注作者在运行和实验时所使用的 Pytorch 和 cuda 版本信息。由于 Pytorch 和 cuda 版本的更新较快，可能出现程序的编译和运行需要之前版本的 Pytorch 和 cuda 进行运行环境支持的情况。比如笔者遇到的某个项目中编写了 CUDAExtension 拓展，而其中使用的 cuda 接口函数在

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章