如何显示cuda程序各模块的占用时间？nvprof?

ronald1940 2019-01-03 08:27:04

在linux进行cuda程序开发，对于单卡仿真程序可以使用nvprof ./program 来查看各部分时间，
（1）但是现在的程序已经改为多节点多卡MPI版本（准确说是4节点8卡）如何继续查看各部分使用时间？目的是为了提高加速比
（2）或者有什么好的办法查看加速比上不去的瓶颈？
（3）有什么好的加速比的建议也可以提，lz是cuda的小白，可能犯了一些比较明显的错误，加速比偏小现在。

...全文

486 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

ronald1940 2019-01-04

打赏
举报

回复

谢谢你，非常感谢

wjsjason 2019-01-04

打赏
举报

回复

（3）关注程序中各个功能模块的运行时间，分析出程序性能受限于传输带宽还是计算能力。比如，测量数据传输的时间和核函数运行时间，看哪一个时间更大，再考虑优化。另外，看看程序中是不是有多余的同步函数，导致程序根本没有异步执行，而是串行执行了

wjsjason 2019-01-04

打赏
举报

回复

（2）还是要通过实际的运行时间来分析加速情况，不能只看总体运行时间，要对程序中各个功能部分分别测时，比如：初始化，数据传入，计算，数据传出

wjsjason 2019-01-04

打赏
举报

回复

（1）可以自己封装一个cpu计时函数或者直接调用CUDA官方的event相关api在程序中实现测时功能，并将运行时间打印出来。

系列文章目录文章目录系列文章目录前言一. CUDA C并行性衡量指标介绍二、案例介绍1. 案例说明2. 案例实现3. 结果分析总结参考资料前言 CUDA编程，就是利用GPU设备的并行计算能力实现程序的高速执行。CUDA内核函数关于网格（Grid）和模块（Block）大小的最优设置才能保证CPU设备的这种并行计算能力得到充分应用。这里介绍并行性衡量指标，可以衡量最优性能的网格和模块大小设置。一. CUDA C并行性衡量指标介绍占用率（nvprof 中的achieved occupanc

前言：目前在用的监控GPU的工具有很多，比较常用的有nvprof和nvvp，还有Nsight。对这三种工具的使用不是很熟练，尚在学习当中。 NVprof Nvprof 是一款用以监控GPU和CPU的运行状态的工具。可以采集程序的运行热点，运行时间线，并进行任务以来分析和kenel函数调度分析等。 NVVP是可以对Nvprof的trace结果.nvvp文件记性图形化展示，也可以直接连接物理机运行你的...

附录A 支持GPU设备列表 https://developer.nvidia.com/cuda-gpus 列出了所有支持 CUDA 的设备及其计算能力。可以使用运行时查询计算能力、多处理器数量、时钟频率、设备内存总量和其他属性（参见参考手册）。附录B 对C++扩展的详细描述 B.1 函数执行空间说明符函数执行空间说明符表示函数是在主机上执行还是在设备上执行，以及它是可从主机调用还是从设备调用。 B.1.1 __global__ __global__ 执行空间说明符将函数声明为内核。它的功能是：在

大数据时代，名词层出不穷。我在这里，汇总下。 Torch是什么？ http://www.jdon.com/47007 Torch是一个广泛支持机器学习算法的科学计算框架。易于使用且高效，主要得益于一个简单的和快速的脚本语言LuaJIT，和底层的C / CUDA实现：Torch | Github核心特征的总结：1. 一个强大的n维数组2. 很多实现索引，切片，移调transposing的例...

一、什么是mps？ 1.1 mps简介 mps（Multi-Process Service），多进程服务。一组可替换的，二进制兼容的CUDA API实现，包括三部分：守护进程、服务进程、用户运行时。 mps利用GPU上的Hyper-Q 能力: o 允许多个CPU进程共享同一GPU context o 允许不同进程的kernel和memcpy操作在同一GPU上并发执行，以实现最大化GPU利用率. HyperQ 可以视为在设备端的硬件中实现的流： ...

374

社区成员

345

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章