Linux下，cuda编写的计算pi的程序的问题

就是大力水手 2011-07-18 11:17:21

在Linux下用写了个程序计算pi：
#include "stdio.h"
#define N 100000

__global__ void compute(float *res,int num){
int id=threadIdx.x;
if(id<num){
float count=0;
for(int s=id;s<N;s=s+num){
float temp=1.0+((s+0.5)/(float)N)*((s+0.5)/(float)N);
float temp2=4.0/(float)N/temp;
count=count+temp2;
}
res[id]=count;//保存每个线程计算的结果
}

}//这是计算pi的kernel函数
int main(){
const int threadnum=10;
float res[threadnum]; float host_res[threadnum];
cudaMalloc((void**)&res,sizeof(float)*threadnum);
compute<<<1,threadnum>>>(res,threadnum);
cudaMemcpy(host_res,res,sizeof(float)*threadnum,cudaMemcpyDeviceToHost);
float result=0;
for(int i=0;i<threadnum;i++)
result=result+host_res[i];

printf("the result is %f\n",result);

return 0;

}

1、这样总不对，每次跑出来的结果都乱七八糟的，不一定是啥。可是如果把红色的部分改成：float *res;就对了。想请教大家一下，这是为什么呀？
2、nvcc编译的时候报Warning：ptxas /tmp/tmpxft_00006f31_00000000-2_pi.ptx, line 73; warning : Double is not supported. Demoting to float可是程序里确实用的都是float，没用double，这个warning又是咋回事呀？

小弟初学，很多都不懂，先谢谢大家啦！

...全文

860 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

linxxx3 2011-07-20

打赏
举报

回复

第一个问题，res数组应该开在显存的地址空间里，声明静态数组的方式不能支持。
第二个，首先你的显卡应该不支持double类型，计算的中间结果有double，可能是 s+0.5 ，整型和float运算按C标准会都转double运算，但是卡不支持，所以截断为float。看你的程序应该不会对结果有影响，这个warning不用管

就是大力水手 2011-07-20

打赏
举报

回复

哦～～soga！谢谢！

就是大力水手 2011-07-18

打赏
举报

回复

麻烦大家帮忙看看啦～～程序很简单，就是求pi，而那个诡异的问题我真不知道怎么回事了……

7天0基础快速入门高性能计算实践项目：人工智能程序Darknet性能调优200%以上 Darknet介绍：一种轻量级的基于C和CUDA的开源深度学习框架。特点：容易安装，没有任何的依赖项，移植性好，支持CPU和GPU两种计算方式。项目要求：使用CPU并行计算的优化方式，使人工智能程序Darknet性能运行效率大幅度提高，较初始安装后的性能参数提高200%以上；项目要点：Darknet原理、天河超算平台使用、MakeFile、安装及运行、卷积神经网络算法YOLO、im2col、GEMM矩阵乘、gprof工具做性能分析、统计优化结果并编写文档；掌握技能：高性能计算与超级计算机Linux 常用操作命令编辑器VIM编译器GCC工程构建工具Make作业管理系统slurm调试器GDB传统性能优化高性能算法程序性能分析导师：原天河团队核心人员，项目实战经验丰富购买课程后请联系V: qingyinxdz，开通训练系统学习权限以及天河超算使用权限。

学习了之前的一些并行计算MPI基本知识之后，其实可以尝试应用起来，今天这篇文章就是用并行计算求解π的。首先需要知道π的求解方式：上面是高等数学里的基本知识，所以π的求解就可以变为求解y(x)=4/(1+x^2)在(0,1)区间的面积。而且求解面积这一块可以采用将(0,1)平均分n个块，将n个矩形面积相加即可得到近似解。而且n取得越大，近似解越精确。比如我们取n=

基于Cuda的开源张量计算库ArrayFire 1、ArrayFire介绍关于ArrayFire ArrayFire是一个高性能的软件库，可通过易于使用的API进行并行计算。其基于数组的功能集使并行编程更易于访问。安装ArrayFire您可以使用Windows，OSX或Linux的二进制安装程序安装ArrayFire，也可以从源代码下载它：Windows，OSX和Linux的二进制安装程序从源代码构建易于使用数组对象非常简单。基于数组的符号有效地表达了类似于可读数学符号的计算...

使用GPU进行加速计算时，使用的线程索引数最好与需要计算的数据维度（一维长度、二维长宽）相等，这样才能保证计算结果的正确。

A guest侧：编写设备驱动，实现 open、close、read、write、ioctl 接口，承接guest侧应用的 cuda api 请求；B host侧：接收 guest 过来的api接口及参数数据，将参数重新组装，然后调用物理显卡的cuda api，并将所需结果返回给guest侧；当前AI和大模型火热，对算力的需求越来越高，如何高效的利用算力资源问题被凸显出来了。cuda虚拟化，一张显卡的cuda算力能同时被多个虚拟机使用。在虚拟化场景下，单张显卡的算力能同时被多个虚拟机调度使用。

374

社区成员

345

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章