哪位大神给看看这个矩阵向量乘法的CUDA程序为什么不对，里面Nd的大小是随意设的。大神帮帮忙，非常感谢。

huiyuan770 2016-09-04 04:01:21

__global__ void matXvector_kernel(const float * Md, const float * Vd, float* Pd, int colsize, int pitchItem)
{
/*
参数：（矩阵指针，向量指针，结果向量指针，矩阵的列数，矩阵行主元的个数）
*/
__shared__ float Mds[TILE_WIDTH][TILE_WIDTH];
__shared__ float Vds[TILE_WIDTH];
float Nd[2000][2000] = {0};
int bx = blockIdx.x; int by = blockIdx.y;
int tx = threadIdx.x; int ty = threadIdx.y;
int Row = by*blockDim.y + ty;
float Pvalue = 0.0;
if ((by*blockDim.y + ty) < pitchItem && (bx*blockDim.x + tx) < colsize){
Mds[ty][tx] = Md[(by*blockDim.y + ty)*colsize + bx*blockDim.x + tx];
Vds[tx] = Vd[bx*blockDim.x + tx];
}
else
{
Mds[ty][tx] = 0;
Vds[tx] = 0;
}
__syncthreads();
for (int k = 0; k < blockDim.x; ++k)
{
Nd[Row][bx] += Mds[ty][k] * Vds[k];
}
__syncthreads();
if (Row < pitchItem && tx < 1)
{
for (int k = 0; k < gridDim.x; ++k)
{
Pd[Row] += Nd[Row][k];
}
}
}

...全文

414 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

huiyuan770 2016-09-04

打赏
举报

回复

上面的程序和cpu的计算结果进行了比较，就是算不对，大神帮忙看看。如果哪位大神有较好的矩阵向量相乘的程序给一份也非常的感谢！

Cookie 是存储在客户机的文本文件，它们保存了大量轨迹信息。在 Servlet 技术基础上，JSP 显然能够提供对 HTTP cookie 的支持。通常有三个步骤来识别回头客：服务器脚本发送一系列 cookie 至浏览器。比如名字，年龄，ID 号码等等。浏览器在本地机中存储这些信息，以备不时之需。当下一次浏览器发送任何请求至服务器时，它会同时将这些 cookie 信息发送给服务器，然后服务器使用这些信息来识别用户或者干些其它事情。

首先，要知道caffe里的卷积核都是三维的在caffe中卷积核是三维的还是二维的？ caffe中卷积计算详解 Caffe源码解析5：Conv_Layer Caffe 代码阅读-卷积卷积运算转换为矩阵乘法关于deconv 这个概念很混乱，没有统一的定义，在不同的地方出现，意义却不一样。上采样的卷积层有很多名字：全卷积（full

Github上同学总结的机器学习和deeplearning方面的很全的资料：原文地址：ty4z2008/Qix 《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning. 《Deep Learning in Neural Networks: ...

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning. 《Deep Learning in Ne...

2022年年底OpenAI发布ChatGPT，将LLM（Large Language Model）带向了一个新的高度，而2023年OpenAI继续放出大招：更强大的GPT-4问世，引爆了整个互联网圈。在这个大模型时代，作为一名NLPer，持续吸收着层出不穷的新技术，确实有些吃不消。俗话说，好记性不如烂笔头，在此记录下LLM相关技术及进展。顺便说一句，你可以说它不全面，但不能说它不通俗易懂。GPT系列模型详解【LLM系列-01】Language Models are Few-Shot Learners。

CUDA高性能计算讨论

353

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章