关于cuda实现点乘的问题～

aascom 2010-05-01 08:54:44

float dot(float *x,float *y)

{ float sum=0;

unsigned int mem_size=1500 * sizeof(float);

float* h_A = x;
float* h_B = y;

float* h_C = (float*) malloc(mem_size);

// allocate device memory
float* d_A;
cutilSafeCall(cudaMalloc((void**) &d_A, mem_size));
float* d_B;
cutilSafeCall(cudaMalloc((void**) &d_B, mem_size));

// copy host memory to device
cutilSafeCall(cudaMemcpy(d_A, h_A, mem_size,cudaMemcpyHostToDevice) );
cutilSafeCall(cudaMemcpy(d_B, h_B, mem_size,cudaMemcpyHostToDevice) );

// execute the kernel
dim3 threadBlock(500,1);
dim3 kernelGrid(3,1);
dot_cu<<<kernelGrid,threadBlock>>>(d_A, d_B);

// check if kernel execution generated and error
cutilCheckMsg("Kernel execution failed");

// copy result from device to host
cutilSafeCall(cudaMemcpy(h_C, d_A, mem_size,cudaMemcpyDeviceToHost) );

for(int i=0;i<1500;i++)
sum+=h_C[i];

// clean up memory
free(h_C);
cutilSafeCall(cudaFree(d_A));
cutilSafeCall(cudaFree(d_B));

cudaThreadExit();
return(sum);
}

kernel函数

__global__ void dot_cu(float *A, float *B)
{
unsigned int tid=threadIdx.x+blockDim.x*blockIdx.x;
A[tid]=A[tid]*B[tid];
__syncthreads();

}

想实现两个1500长的一维数组的点乘再求和的运算

但这个程序的运算效率比cpu低不知道为什么

求指教～～

...全文

208 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

ycc892009 2010-06-28

打赏
举报

回复

建议你看一下深入浅出cuda
这里有一个介绍优化的问题
http://www.pcinlife.com/article/graphics/2008-06-04/1212575164d532_2.html

无心人_过过小日子 2010-05-02

打赏
举报

回复

每个block中线程少些(128吧).block数多些.
去掉__syncthreads();

frog_skywalker 2010-05-01

打赏
举报

回复

A和B都在global mem里，访问很慢

1500个线程太少了，体现不出gpu的优势

另外，需要同步吗？

本文介绍了float的相关背景和在CUDA中的特性。float采用IEEE 754格式，共32位4字节，存在精度问题。在CUDA中，IEEE 754标准要求操作与硬件平台无关，FMA计算更精确。还给出向量点乘示例，比较了不同计算方法的精度，最后给出使用建议。

本文介绍多版本 CUDA 的安装与切换方法。首先可到 CUDA Toolkit Download 下载所需版本，建议用特定文件安装，避免替换已有显卡驱动。安装完成后，可在特定目录查看。多个版本切换时，将 ~/.bashrc 或 ~/.zshrc 下与 cuda 相关路径改为 /usr/local/cuda/。

本文总结了在Windows下安装CUDA及配置开发环境时遇到的问题与解决方案。问题包括安装后系统黑屏、NVCC编译找不到cl.exe、CUDA无法正常运行、奇怪的编译问题等。原因涉及驱动不兼容、工具链缺失、版本不匹配等，通过回滚驱动、安装模块、适配版本等方法可解决，最后还给出检验脚本。

本文介绍了解决TensorFlow与CUDA版本不匹配的问题。当CUDA版本过高时，可以通过修改~/.bashrc文件将CUDA版本从10.0改为9.0来适配TF1.8。修改后需通过source命令更新配置并验证版本是否正确。

本文介绍了在Ubuntu 18.04上升级CUDA至11.3版本的详细步骤，包括检查CUDA和NVIDIA驱动、安装CUDA、cuDNN的下载与安装，以及如何在CMake中正确配置CUDA和TensorRT。还提供了常见问题解决方案，如cmake编译错误的处理。

591

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章