CUDA 内核函数中计算矩阵的n次方

ada5400 2012-06-05 08:52:50

麻烦帮忙看一下下面这个内核函数，是用来计算矩阵的n次方。
循环计算的次数是power-1次；
每次计算把计算出来的结果赋值给temp, 逻辑就是
for(p=1; p<power; p++){
{
prod = temp * b;
temp = prod;
}
但是问题是，在内核函数中，把pointer prod 的地址赋给temp以后， temp就会在计算过程当中受到prod值变化的影响。
请教有没有办法能实现我上面的逻辑呢？
感谢万分！~

#define BLOCK_SIZE 16

__global__ void
power_kernel_func(const float * a, const float * b, float * prod, unsigned int n, unsigned int power) {

unsigned int i, t, p;
__shared__ float matrix_a[BLOCK_SIZE][BLOCK_SIZE];
__shared__ float matrix_b[BLOCK_SIZE][BLOCK_SIZE];

const unsigned int row = blockIdx.y*blockDim.y + threadIdx.y;
const unsigned int col = blockIdx.x*blockDim.x + threadIdx.x;

float* temp=a;
float result;
for(p=1; p<power; p++){
result = 0;
for(t=0; t<n/BLOCK_SIZE; t++){
matrix_a[threadIdx.y][threadIdx.x]=temp[row*n+(t*BLOCK_SIZE+threadIdx.x)];
matrix_b[threadIdx.y][threadIdx.x]=b[(t*BLOCK_SIZE +threadIdx.y)*n+col];
__syncthreads();

for(i=0; i!=BLOCK_SIZE; i++){
result+=matrix_a[threadIdx.y][i] * matrix_b[i][threadIdx.x];
}
__syncthreads();
}
prod[row*n+col]=result;
temp=prod;
}
}

...全文

255 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

ada5400 2012-06-05

打赏
举报

回复

麻烦帮忙看下最后一行代码 temp=prod; 应该怎么改呢？

VisionWorks是英伟达(NVIDIA)提供的一个运行于NVIDIA平台，基于CUDA的计算机视觉计算加速库。本课程能够帮助计算机视觉和深度学习领域的学生、工程技术人员、产品开发人员熟悉VisionWorks的使用，熟练运用VisionWorks实现基于硬件(CUDA)加速的CV和DL任务。同时，通过VisionWorks和OpenCV的交互使用，能够实现快速、高效的计算机视觉任务、深度学习任务。

【原文：https://blog.csdn.net/cyhbrilliant/article/details/79434090】 (UPDATE IN 2018.3.8) 1.更新pitch索引操作的描述概述什么是CUDA？ CUDA（Compute Unified Device Architecture）是 NVIDIA公司开发的一种计算架构，可以利用NVIDIA系...

CUDA 11功能展示 CUDA 11 Features Revealed 新的NVIDIA A100 GPU基于NVIDIA安培GPU架构，实现了加速计算的最大一代飞跃。A100 GPU具有革命性的硬件功能，我们很高兴宣布CUDA11与A100结合使用。 CUDA11使您能够利用新的硬件功能来加速HPC、基因组学、5G、渲染、深度学习、数据分析、数据科学、机器人和许多更多样化的工作负载。 CUDA11包含了从平台系统软件到开始开发GPU加速应用程序所需的所有功能。本文概述了此版本中的主要软件功能：支持N

一、FFT介绍　　傅里叶变换是数字信号处理领域一个很重要的数学变换，它用来实现将信号从时域到频域的变换，在物理学、数论、组合数学、信号处理、概率、统计、密码学、声学、光学等领域有广泛的应用。离散傅里叶变换(Discrete Fourier Transform，DFT)是连续傅里叶变换在离散系统中的表示形式，由于DFT的计算量很大，因此在很长一段时间内其应用受到了很大的限制。20世纪6...

CUDA（Compute Unified Device Architecture）是由NVIDIA公司开发的一个并行计算平台和应用程序接口（API）模型。它允许软件开发者和软件工程师使用NVIDIA GPU（图形处理单元）进行通用处理（即非图形处理），这种技术被称为GPGPU（General-Purpose computing on Graphics Processing Units）。执行线程是可由调度程序独立管理的最小程序指令序列。

580

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章