CUDA编程中使用常量内存带来性能的提升？

qq_26917597 2016-03-29 05:38:19

小菜菜最近在看GPU高性能编程CUDA实战这本书，在书的第七章中给出的代码，鄙人在自己电脑上跑了下，发现使用常量内存后，运行时间反而会比不使用常量内存的时候多，请问这个怎么回事？怎么解释？谢谢

...全文

305 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Leo-Ma 2019-07-28

打赏
举报

回复

我发现相同的问题，帮顶一下

FFmpeg+CUDA硬件加速原理与案例实战FFmpeg系列之35FFmpeg第2季编解码专题之5：FFmpeg+CUDA硬件加速原理与案例实战本课程主要讲解的知识点包括：GPU高性能编程CUDA入门、CUDA编程模型的原理解析、CUDA编程小白案例入门实战、CUDA官方经典案例实战与解析、FFmpeg+CUVID硬件加速原理与命令行、Qt+FFmpeg实现cuda硬解码加速代码实战等。---------------------------------------------------------------目前FFmpeg第二季【编解码专题】，主要包括以下课程：FFmpeg4.3系列之31：图像格式与压缩FFmpeg4.3系列之32：MPEG-1/2视频编解码FFmpeg4.3系列之33：H.264/H.265视频编码FFmpeg4.3系列之34：FFmpeg+DXVA2+D3D硬件加速FFmpeg4.3系列之35：FFmpeg+CUDA硬件加速

GPU包含数百个数学计算单元，具有强大的处理运算能力，可以强大到计算速率高于输入数据的速率，即充分利用带宽，满负荷向GPU传输数据还不够它计算的。CUDA C除全局内存和共享内存外，还支持常量内存，常量内存用于保存在核函数执行期间不会发生变化的数据，使用常量内存在一些情况下，能有效减少内存带宽，降低GPU运算单元的空闲等待。使用常量内存提升性能使用常量内存可以提升运算性能的原因如下：对常量内存的单...

1.常量内存当线程束中的所有线程都访问相同的只读数据时，使用常量内存将获得额外的性能提升。常量内存大小限制为64k。以下摘自hackairM的博文CUDA学习--内存处理之常量内存（4）。常量内存其实只是全局内存的一种虚拟地址形式，并没有特殊保留的常量内存块。常量内存有两个特性，一个是高速缓存，另一个是它支持将单个值广播到线程束中的每个线程。但要注意的是，对于那些数据不太集中或...

本章大概50页, 2天之内看完前言: 本章内容：了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中, 已经介绍了几种全局内存的访问模式. 通过安排全局内存访问模式, 我们学会了如何实现良好的性能并且避免了浪费事务. 未对齐的内存访问是没有问题的, 因为现.

我们在cuda编程中定义变量的时候，可以用__constant__来修饰定义，代表着定义了一个常量内存。向常量内存中拷贝数据的时候不再使用cudaMemcpy，而改为使用cudaMemcpyToSymbol。对于常量内存，不需要在使用完成后用cudafree释放空间。常量内存带来的性能提升 __constant__把对变量的访问限制为只读，跟从全局内存读取数据相比...

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章