NVIDIA 技术博客：高级 API 性能：内部函数

nvdev 2024-03-01 15:04:01

这篇文章最初发表在 NVIDIA 技术博客上。有关此类的更多内容，请参阅最新的 内容创建/渲染 新闻和教程。

Intrinsics 可被视为特定硬件指令的更高级别的抽象。它们提供对低级操作或特定于硬件的功能的直接访问，从而提高性能。这样，就可以在线程束中的线程间执行操作，也称为线程束中的线程波前.

推荐

Wave 内联函数可以显著加快着色器的运行速度。以下是一些优化技巧：
- 许多排序或归约算法可以使用更少的共享内存或不使用共享内存，并减少内存障碍，从而显著提升性能。
- 可以使用不同类型的 shuffle 和 ballot 指令。
- 将波形指令与 GroupSize 或 WorkGroup 值大于线程束或子组大小（32 个线程）的波形指令结合使用，可以减少所需的内存屏障和共享内存访问。
- 有关更多信息，请参阅线程之间的读取：着色器内部函数和在 HLSL 中解锁 GPU 内部架构。
使用GroupSize和WorkGroup线程束大小的乘数(32 * N)，64 通常是最佳点。
- 使用 intrinsicGroupSize和WorkGroup32 可能是避免使用共享内存的更好选择。
当供应商特定的扩展不适用或难以实现时，使用原生 HLSL 代码。
- 一些指令可以使用最新的着色器模型版本来实现。

以下代码示例是 SM6 的示例：

float(4) NvShflXor (float(4) input, uint LaneMask) { float(4) output = WaveReadLaneAt(input, WaveGetLaneIndex() ^ LaneMask); return output; }

...全文

27 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Socket编程系列初步计划：Socket编程系列之1：Linux-API网络编程入门实战Socket编程系列之2：Windows-API网络编程入门实战Socket编程系列之3：Libevent网络编程入门实战Socket编程系列之4：Libcurl网络编程入门实战Socket编程系列之5：Boost-ASIO网络编程入门实战Socket编程系列之6：Libuv网络编程入门实战----------------------------------------------------Socket编程系列之6：Libuv高性能异步IO及高效网络编程Libuv是一个高效的异步IO开发库，Linux下采取libev，Windows下独立编程实现IOCP高效网络编程。我将带领大家进行Libuv小白入门知识的讲解，并亲手配置环境，跑起来一个HelloWorld案例。然后进行各个方面的项目实战，并深入分析原理，包括：Libuv进程开发实战、网络开发实战、线程开发实战等。

简短版本：我想知道是否有标准三角函数的实现比math.h中包含的函数更快。较长的版本：我有一个程序，它非常注重数值(这是物理模拟)，并且需要调用三角函数，主要是sin和cos。当前，我只是在使用math.h中包含的实现...

testflow NVIDIA

Nsight Systems为被加速的应用程序生成图形化的活动时间表，其中包含有关CUDA API调用、内核执行、内存活动以及CUDA流的使用的详细信息。我们先使用编译下面的code：编译命令：生成分析文件：新启一个命令行，...

cub是一个由 NVIDIA 提供的标头库，作为 CUDA 的一部分，可为内核中常用的原始操作提供接口，如归约和扫描操作。就目前而言，我们在cub中使用 BlockReduce 接口来执行模块级归约，然后只让每个模块中的线程“0”向...

NVIDIA 企业开发者社区

1,214

社区成员

1,385

社区内容

发帖

与我相关

我的任务

人工智能企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章