矩阵乘法的一个例子不太理解，求教于大神

Sergio_ly 2019-02-27 10:03:55

本例摘自英伟达官方文档cuda c best practice guide



__global__ void coalescedMultiply(float *a, float* b, float *c,

int N)

{

__shared__ float aTile[TILE_DIM][TILE_DIM];

int row = blockIdx.y * blockDim.y + threadIdx.y;

int col = blockIdx.x * blockDim.x + threadIdx.x;

float sum = 0.0f;

aTile[threadIdx.y][threadIdx.x] = a[row*TILE_DIM+threadIdx.x];

for (int i = 0; i < TILE_DIM; i++) {

sum += aTile[threadIdx.y][i]* b[i*N+col];

}

c[row*N+col] = sum;

}

这个例子是矩阵C = A × B，利用共享内存解决全局内存跨步访问的问题。下面的解释中有这样一条不理解：
Within each iteration of the for loop, a value in shared memory is broadcast to all threads in a warp
请问这里为什么会是广播访问？

...全文

2150 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

瓶邪.slj 2019-03-02

打赏
举报

如上输出结果是：array（ [ [6.] , [6.] ] ）

瓶邪.slj 2019-03-02

打赏
举报

def Matrix_Mul(a,b):
if a.shape[1] != b.shape[0]:
print('这两个矩阵无法做乘法，请检查左边矩阵的列数是否与右边矩阵的行数相等！')
else:
c = np.zeros(a.shape[0]*b.shape[1]).reshape(a.shape[0],b.shape[1])
for i in range(a.shape[0]):
for j in range(b.shape[1]):
for k in range(a.shape[1]):
c[i,j] = c[i,j] + a[i,k]*b[k,j]
return c

import numpy as np
a = np.matrix([[2,3,4],[1,0,5]])
b = np.matrix([1,0,1]).T
Matrix_Mul(a=a,b=b)

wjsjason 2019-02-28

打赏
举报

我没有细看代码，不过听你的描述，这段英文可以这样理解：矩阵乘法中，矩阵A的一行，需要与矩阵B的每一列相乘，如果一个线程负责A的一行与B的一列相乘，则32个线程就可以负责A的一行与B的32列相乘，此时32个线程是同时访问A的一行的，所以32次访问可以通过广播只访问1次。这里用了共享内存，以上描述“A的一行‘’可以看成是“aTile里的一行”

本文提出了一种全新的矩阵乘法理解和计算方法，摒弃传统‘一行乘一列’的思维方式，从几何直观出发，深入剖析矩阵的本质含义。通过将矩阵视为坐标系，使计算过程更加直观、高效。

本文深入解析矩阵乘法的基本概念与计算方法，通过实例演示矩阵乘法的计算过程，并提供C语言实现矩阵乘法的代码示例。

本文介绍矩阵乘法，先回顾矩阵加法和数乘，再阐述教科书上矩阵乘法的一般性法则。接着从列向量、行向量和鬼畜视角讲解矩阵乘法，得出矩阵C中每列是A中列的线性组合、每行是B中行的线性组合，以及C等于A列与B行乘积之和等结论，强调切换视角助于理解。

本文深入浅出地解析矩阵乘法，从列向量、行向量及鬼畜视角，阐述矩阵乘法的计算原理及线性组合概念，帮助读者从不同角度理解矩阵运算。

本文深入探讨了矩阵乘法，从向量内积到矩阵与向量、矩阵与矩阵的乘法。通过向量×向量的批处理、线性变换、初等行变换和线性组合的角度，解析了矩阵乘法的本质。矩阵乘法不仅涉及方程组的求解，还涵盖了初等行变换和线性组合的批处理概念。