cuda profiler设置运行次数

x642458 2011-04-18 10:35:23

每次测试，cuda profiler 都要重复运行6次，太费时间了，有没有办法设置cuda profiler，让它只跑一次？

...全文

135 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

asgaobiao 2011-04-20

打赏
举报

回复

没的，测完6次的参数才能全，如果只要gpu time 等一些的话，一遍就可以的。完全可以停止测试。

devin_jia 2011-04-20

打赏
举报

回复

没办法抽支烟等

对于应用程序的特定部分，哪些策略会产生最佳的性能提升取决于该部分的性能限制因素；例如，优化主要受内存访问限制的内核的指令使用不会产生任何显著的性能提升。因此，优化工作应该不断地通过测量和监控性能限制因素来指导（别瞎优化！），例如使用CUDA profiler。此外，将特定内核的浮点操作吞吐量或内存吞吐量（取决于哪一个更有意义）与设备的相应峰值理论吞吐量进行比较，可以知道该内核有多少改进空间。 Maximize Utilization whaosoft aiot 不断分配和释放内存的应用程序在运行过程中，随着

CUDA运行时Runtime（三）一．异步并发执行 CUDA将以下操作公开为可以彼此并发操作的独立任务：主机计算；设备计算；从主机到设备的内存传输；从设备到主机的存储器传输；在给定设备的存储器内的存储器传输；设备之间的内存传输。这些操作之间实现的并发级别将取决于设备的功能集和计算能力，如下所述。二. 主机和设备之间的并发执行在设备完成请求的任务之前，通过异步库函数将控制权返回给主机线程，可以促进并发主机执行。使用异步调用，当适当的设备资源可用时，许多设备操作可以一起排队，由CUDA驱动

这篇翻译是对 https://www.deepspeed.ai/tutorials/pytorch-profiler/ 和 https://www.deepspeed.ai/tutorials/flops-profiler/ 两篇教程做的，使用DeepSpeed训练模型可以基于这两个教程做一下Profile工作判断模型的计算以及内存瓶颈在哪个地方。

Kernel Profiling Guide：介绍了如何profiling kernel，并透露了更多硬件实现上及kernel执行过程的细节。官方文档就是最好的教程 docs.nvidia.com/cuda/ 文档很多，推荐前期重点读以下三份文档。CUDA C++ Programming Guide：介绍了CUDA C的编程模型,附录的内容也很丰富。CUDA C++ Best Practices Guide：介绍了怎样写CUDA会有更高的性能。

附录A 支持GPU设备列表 https://developer.nvidia.com/cuda-gpus 列出了所有支持 CUDA 的设备及其计算能力。可以使用运行时查询计算能力、多处理器数量、时钟频率、设备内存总量和其他属性（参见参考手册）。附录B 对C++扩展的详细描述 B.1 函数执行空间说明符函数执行空间说明符表示函数是在主机上执行还是在设备上执行，以及它是可从主机调用还是从设备调用。 B.1.1 __global__ __global__ 执行空间说明符将函数声明为内核。它的功能是：在

374

社区成员

345

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章