CUDA下，如何测试1MB的数据从主机内存传输到gpu全局内存花费的时间？

MrCzx 2017-12-02 11:20:10

我是这样测试，在主机内存申请一个数据，数组的大小为256，然后给其赋初始值，然后用cudaMemcpy函数拷贝，用time.h头文件里面获取时间，但是在cudaMemcpy前后获取的时间一致，这是因为什么原因呢？求助，应该有啥好的方法测试所花费的时间？

...全文

845 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

YCMyTot 2018-05-25

打赏
举报

回复

2楼正解，1MB的数据确实不大，精度低的话，根本测不出来，可以试下把数据量调大或者使用us级来计算时间。此外gpu端计算时间可以用cudaevent_t。这样测试感觉意义不大。。。

tfwn 2018-05-17

打赏
举报

回复

秒级精度太低了，至少使用us级吧随便找了个测例如下： #include <stdio.h> #include <stdlib.h> #include <time.h> int main() { clock_t begin, end; double cost; //开始记录 begin = clock(); /*待测试程序段*/ printf("hello world!\n"); //结束记录 end = clock(); cost = (double)(end - begin)/CLOCKS_PER_SEC; printf("constant CLOCKS_PER_SEC is: %ld, time cost is: %lf secs", CLOCKS_PER_SEC, cost); }

MrCzx 2017-12-02

打赏
举报

回复

#include <stdio.h> #include <time.h> #define size 256000 int main(){ time_t start,finish; struct tm *startsm,*finishsm; int ah[size],bh[size],i; bool flag=1; //用来判断传输过程中是否出现错误，1无误，0错误 int *ad; for(i=0;i<size;i++){ ah[i]=i; } cudaSetDevice(0); cudaMalloc((void**)&ad, size*sizeof(int)); //1KB数据从cpu内存到GPU内存 start=time(NULL); //计时开始 startsm=localtime(&start); printf("start :%ld\n",start); printf("-----%s",asctime(startsm)); cudaMemcpy(ad, ah, size*sizeof(int), cudaMemcpyHostToDevice); finish=time(NULL); //结束计时 finishsm=localtime(&finish); printf("finish: %d\n",finish); printf("-----%s",asctime(finishsm)); printf("%dKB数据从cpu内存到GPU内存所花费的时间为：%f s\n",size/256,difftime(finish,start)); //数据从gpu内存到cpu内存 time(&start); //计时开始 cudaMemcpy(bh, ad, size*sizeof(int), cudaMemcpyDeviceToHost); time(&finish); //结束计时 printf("%dKB数据从gpu内存到cpu内存所花费的时间为：%f s\n",size/256,difftime(finish,start)); //检查是否有错误 for(i=0;i<size;i++){ //printf("%d ",bh[i]); if(ah[i]!=bh[i]){ flag=0; break; } } if(flag){ printf("corret：传输过程无误\n"); } else{ printf("wrong：传输过程出错,需要进一步检查\n"); } cudaFree(ad); return 0; }

你是不是也遇到过这样的情况：辛辛苦苦写了个CUDA程序，结果跑起来慢得像乌龟爬，性能完全不如预期？这篇文章不玩虚的，直接用大白话和硬核代码，教你如何快速上手这些知识点，提升程序效率。别怕试错，动手写代码，跑数据，调参数，总能找到属于你的性能巅峰。GPU寄存器是每个线程的“私人宝库”，速度快得飞起，比全局内存快几十倍。：寄存器是CUDA的命脉，但别一味追求少用。**改成这样：告诉编译器这些指针不重叠，减少不必要的内存检查，寄存器分配更高效。：固定内存不是万能药，小数据用它是大杀器，大数据就别硬上，浪费资源。

6.1 简介抽象已经在现代程序语言中成为一种趋势。它使程序员离底层硬件越来越大，以确保程序员不必过多了解底层硬件就可以编写程序。但它仍然灵活的编译器将上层的抽象转换成底层硬件能够理解的形式。有两个比较重要的概念，一个是存储带宽(memeory bandwidth)，即在一定时间内从DRAM中读出或写入的数据量。一个是延迟(latency)，即响应一个获取内存的请求所花费的时间，通常这个时间会是上百个处理器周期。从内存总线带宽与内存设备时钟频率的角度来看，处理器的设计也出现了相同的权衡点。设备上硅

9.3 策略：传输 9.3.1 锁页内存为对某一数据集进行操作，你需要将数据从主机传输到设备上、在数据集是哪个进行操作，然后将结果传输回主机。由于是在完全串行的方式下执行的，这将导致主机和GPU在一段时间内实现制的，白白浪费了传输能力与计算能力。在本章，我们详细介绍了多GPU的使用，包括如何使用流以确保GPU总是有工作可做。使用简单的双缓冲技术，尽管GPU正在将结果传输回主机并且请求一个新的工作包，但另一个缓冲仍然能被计算引擎来处理下一个数据块。主机处理器支持虚拟内存系统，其中物理内存页可以

原文我之前的介绍性文章“CUDA C++更简单的介绍”介绍了CUDA编程的基础，展示了如何编写一个简单的程序，将两个数组的数字分配给 GPU 可访问的内存，然后在 GPU 上把它们相加起来。为此，我向您介绍了统一内存，它使分配和访问数据变得非常容易，这些数据可以由系统中任何处理器(CPU或GPU)上运行的代码使用。图1所示。统一内存是系统中任何处理器都可以访问的单个内存地址空间。我用...

CUDA C++ 最佳实践指南 (nvidia.com)2. 异构计算CUDA C++ 最佳实践指南 (nvidia.com)2. 异构计算CUDA 编程涉及在两个不同的平台上同时运行代码：具有一个或多个 CPU 的主机系统和一个或多个支持 CUDA 的 NVIDIA GPU设备。虽然 NVIDIA GPU 经常与图形相关联，但它们也是强大的算术引擎，能够并行运行数千个轻量级线程。此功能使它们非常适合可以利用并行执行的计算。

374

社区成员

345

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章