1,404
社区成员
发帖
与我相关
我的任务
分享这篇文章最初发表在 NVIDIA 技术博客上。有关此类的更多内容,请参阅最新的 概括 新闻和教程。
NVIDIA Nsight Compute 是用于 CUDA 应用程序的交互式内核分析器。它通过用户界面和命令行工具提供详细的性能指标和 API 调试。 Nsight Compute 2022.1 更新了数据收集模式,为性能分析提供了新的用例和选项。
Nsight Compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。
范围标记可以使用以下任一方法定义:
有关完整的详细信息,请参阅 Nsight Compute 的内核评测指南 中的“重播”部分。

图 1 。范围回放可视化:捕获范围后,每个过程都会收集整个范围的性能信息。
在 A100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ECC 行,用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。

图 2 。内存工作负载分析表的改进: ECC 和二级缓存逐出策略信息。
Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。

图 3 。打开多结果报告现在会显示摘要页面,允许您对结果进行排序并决定优化顺序。

图 4 。这两种未恢复的内存访问规则都以更简洁、更有序的格式呈现结果。
进一步的改进包括 Occupancy Calculator 自动更新。源页面中 Register Dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 NVLink 更新。
在十一月的 GTC ,我们发布了展示 NVIEW 工具能力的有洞察力的资产: