洗牌束指令归约与使用共享内存归约谁更快？

ljd627 2022-12-01 11:11:23

我做了一个测试，分别用洗牌束指令与共享内存进行归约计算，一个block内，循环做100000次，结果如下：

为什么洗牌束指令的速度不如shared memory？按照cuda操作指南的描述，洗牌束指令应该更快的，是程序有问题么？

...全文

1000 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

这里写目录标题一级目录一级目录

本文介绍了CUDA中的Shuffle指令，它是一种比共享内存更高效的warp内线程通信方式。Shuffle指令允许warp内的32个线程直接读取其他线程的寄存器值，无需通过共享内存，具有极低延迟（1-2周期）且无bank冲突风险。文章详细解析了四种Shuffle变体的语法和使用场景，包括直接读取、向上/向下读取和异或读取，并提供了warp内归约求和和前缀和两个实战案例。性能测试表明，Shuffle指令比优化后的共享内存实现快60%，代码更简洁。建议在warp级数据交换场景中优先使用Shuffle指令替代共享

经典的两阶段归约模板（Two-Stage Reduction Pattern）是CUDA优化中的核心模式。是大多数CUDA应用中求和、求最大值/最小值等操作的标准模式。很多问题都需要基于两阶段归约模板解答。两阶段归约模板虽然不是最快的解答方法，但它平衡了并行效率和实现复杂度，是最容易理解和实现且效率不低的最佳实践。

本文研究了MapReduce在并行外部内存（PEM）模型中的效率，分析了洗牌步骤的I/O复杂度上界与下界。通过引入PEM模型并与BSP*模型进行比较，建立了两种模型间的可比性。针对不同映射和归约场景，提出了直接洗牌、依赖映射的洗牌策略以及完全合并等方法，并给出了相应的算法复杂度。基于稀疏矩阵向量乘法的下界分析，得出了在多种数据布局下的I/O复杂度下界，证明了算法的渐近最优性。研究成果为大规模数据处理中MapReduce的性能优化提供了理论支持和实践指导。

在金融行业CDN流推送场景中，结合WebRTC over SD-RTN与SD-WAN Branch方案，需兼顾要求。

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章