CUDA 中私有数组的快速动态索引
CUDA 中私有数组的快速动态索引有时候你需要在你的GPU内核中使用小型的每个线程私有的数组。访问这些数组中的元素的性能取决于许多因素。在这篇文章中,我将介绍几个常见的场景,从快速静态索引到更复杂、更具挑战性的用例。静态索引在讨论动态索引之前,让我们先简要了解一下静态索引。 对于所有索引在编译时都是已知常量的小数组,如以下示例代码所示,编译器将数组的所有访问元素放入寄存器中。__global__ void kernel1(float * buf){ float a[2]; ...