萌新求助：kernel函数的一般参数是怎么传递的？使用常量内存代替参数没有提速？

Reehac2016 2016-09-01 03:36:11

写了一个kernel函数，采用如下形式：
__global__ Func1（int * P1,float P2）
{
id=blockid.x*T_NUM＋threaded.x;
float t=id*P2;
........
}

在host端：
float a=3.14;
int b_num=128;
int t_num=128;
int * Data;
Cudamalloc( Data..........);

Func1<<<b_num,t_num,0>>>(Data,a);

程序顺利编译，运行了，但是速度没有达到老板的要求。
于是想办法：
哦，参数P2是在CPU端直接定义的值，然后直接作为参数传递给kernel函数。会有一次内存到显存的拷贝。该kernel函数被调用过1000次，也就是1000次hosttodevice的拷贝，耗时。
于是用常量内存代替该参数，并且在初始化时就对该常量赋值。之后1000次调用只读常量内存，不写。
__constant float pi=3.14;
__global__ Func1（int * P1）
{
id=blockid.x*T_NUM＋threaded.x;
float t=id*pi;
........
}

Func1<<<b_num,t_num,0>>>(Data);

编译，再运行。
速度没有丝毫提升，why？

...全文

181 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

学习我的教程专栏，你将绝对能实现CUDA工程化，实现环境安装、index计算、kernel核函数编程、内存优化与steam性能优化、原子操作、nms的cuda算子、yolov5的cuda部署等内容，并开源教程源码。本章开始，我们正式进入编程环节。本章介绍cuda编程基础，host或device端如何调用函数，重点说明global、device与host限定词的使用。

学习我的教程专栏，你将绝对能实现CUDA工程化，实现环境安装、index计算、kernel核函数编程、内存优化与steam性能优化、原子操作、nms的cuda算子、yolov5的cuda部署等内容，并开源教程源码。在上章节中，我们已使用了核函数global方法，但cuda编程并非如此简单，而往往多数读者会被grid block thread等相关问题难住。恰巧这些问题也会伴随kernel函数始终，也是kernel函数最为重要且核心部分(我个人认为)。

学习我的教程专栏，你将绝对能实现CUDA工程化，实现环境安装、index计算、kernel核函数编程、内存优化与steam性能优化、原子操作、nms的cuda算子、yolov5的cuda部署等内容，并开源教程源码。到此为止，之前章节已让我们大致熟悉cuda相关理论与cuda函数运作原理，特别是kernel函数的线程index计算规则。为此，本节我们将正式使用cuda编写基本矩阵运算，主要涉及矩阵加法与乘法，而矩阵减法与除法与本节介绍的方法相似，将不在作为教程。

学习我的教程专栏，你将绝对能实现CUDA工程化，实现环境安装、index计算、kernel核函数编程、内存优化与steam性能优化、原子操作、nms的cuda算子、yolov5的cuda部署等内容，并开源教程源码。以上章节中，我们已经比较熟练掌握如何使用cuda编写自己想要的计算逻辑，已能成功编写cuda代码了。那么，另外一个重要问题值得我们关注，如何优化其性能，使其工程部署能加速运行了。而这种性能优化与cuda内存密切相关。为此，我们在本节中介绍cuda内存相关内容，并附其源码。

学习我的教程专栏，你将绝对能实现CUDA工程化，实现环境安装、index计算、kernel核函数编程、内存优化与steam性能优化、原子操作、nms的cuda算子、yolov5的cuda部署等内容，并开源教程源码。我相信通过以上学习，已能基本掌握kernel函数的编写，并基本掌握了kernel函数的计算规则。然，有些我们为了巩固以上基础，也为了说明kernel一些额外编码变体。为此，本节我们将通过例子实战kernel的应用。

581

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章