关于SM和Block的思考，求解

super2012cz 2014-11-18 10:11:58

最近学习CUDA，写了个小程序，由于程序需要，设置Block的尺寸为：5*5，然后Grid尺寸：4*4。运行之。然后第二次设置Grid尺寸为：8*8，第三次为16*16，第四次为32*32，结果16*16的是最快的（Geforce GT 755M，2个SM）。然后到Tesla（30SM）上去运行相同的程序，结果在相同Grid尺寸情况下，Tesla上还没有GT的块！按理说SM越多程序会越快，但是结果却让我大跌眼镜，不知道是我的程序的Kernel部分没有设计好还是怎么的（结果和单机对比后是正确的，可能多半是Kernel设计有问题）。
查看了一些资料，例如sparrow986831的“CUDA:grid和block维度设计”，第一句话就是“按照CUDA的执行模型，grid中的各个block会被分配到GPU的各个SM中执行”。那么按照这个意思，就算block个数很多，但是它会分配到各个SM上，SM越多程序所花时间越短。
但是在《CUDA中如何选择Block的尺寸》中，如果block尺寸为8*8，一个SM最多2048个线程，那么block个数为2048/64=32，但是每个SM只能容纳16个block，所以每个SM上的线程数是16*64=1024。所以讲block尺寸设置为16*16的话，只需8个block，小于SM要求的16个。
感觉这些东西没懂，有点混乱，求解！

...全文

559 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

super2012cz 2014-11-21

打赏
举报

回复

恩，好的，CUDA程序设计就是要查看硬件信息。

YCMyTot 2014-11-19

打赏
举报

回复

首先了解一下你的显卡的信息，每个SM中能够容纳的 Block 数，每个SM中最多能够容纳的线程数，通过一个比较 : 你的 block 中分配的数* Blcok 数 <= SM 中能够容纳的 thread 数不同的分块，会导致 SM的利用率的改变，SM 的利用率越高越好！

super2012cz 2014-11-19

打赏
举报

回复

这倒是，block是CUDA按策略分配给SM的，太多的话调度也是个问题。

adagio_chen 2014-11-19

打赏
举报

回复

block的尺寸太大的话，会造成每个block占用的资源过多，以至于能同时运行的block会变少。

例如：在门禁应用中，采用SM1算法进行身份鉴别和数据加密通讯，实现卡片合法性的验证，保证身份识别的真实性。安全是关系国家、城市信息、行业用户、百姓利益的关键问题。国家密码管理局针对现有重要门禁系统建设...

1 什么是SM2 RSA算法的危机在于其存在亚指数算法，对ECC算法而言一般没有亚指数攻击算法。 SM2椭圆曲线公钥密码算法：...ECC的全称是Error Checking and Correction，是一种用于Nand的差错检测和修正算法。如果操作时

（1）基于SM2加密、签名算法，结合SM3哈希算法生成SM4的加密密钥（2）使用SM4加密生成密文（3）根据密文及SM2恢复解密密钥，使用SM4恢复明文并进行验证

基于MFC、opencv、VS2017的实现迷宫自动生成和路径求解，写的比较烂。问题分析： 1.如何生成迷宫：随机、prim算法 2.如何求解迷宫：dfs、bfs等遍历方法 3.图形化界面联动：opencv图片刷新、时间控制、MFC等 ...

数据加密的基本过程就是对原来为明文的文件或数据按某种算法进行处理，使其成为不可读的一段代码为“密文”，使其只能在输入相应的密钥...对称加密和非对称加密是两种常用的加密算法。对称加密（Symmetric Encryption）

581

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章