社区
CUDA
帖子详情
SDK中矩阵相乘例子问题,急
tammy_forward
2009-05-27 10:54:37
加精
运行SDK矩阵相乘例子,把矩阵大小改为512*512的,结果运算时间特长,都比不上手动了,怎么会这样?虽然这个例子没经过优化但也不至于这样吧。
着急,哪位大虾指点一下?或者有性能优化的矩阵相乘例子那就最好了,能给我一个么,好好学习一下?
...全文
557
34
打赏
收藏
SDK中矩阵相乘例子问题,急
运行SDK矩阵相乘例子,把矩阵大小改为512*512的,结果运算时间特长,都比不上手动了,怎么会这样?虽然这个例子没经过优化但也不至于这样吧。 着急,哪位大虾指点一下?或者有性能优化的矩阵相乘例子那就最好了,能给我一个么,好好学习一下?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
34 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
jpthank
2009-11-06
打赏
举报
回复
to see the problem, i have to study hard.
明之森
2009-05-30
打赏
举报
回复
使用OpenCV库
cammy168
2009-05-30
打赏
举报
回复
顶 换CPU
niejiangmin
2009-05-30
打赏
举报
回复
尝试一下啊。
_highlight
2009-05-30
打赏
举报
回复
飘过!!
顶~~~~~~~~~~~~~~~
calendarian
2009-05-29
打赏
举报
回复
干脆用银河系列的机器吧……
矩阵永远是个大头啊
bx8840668
2009-05-29
打赏
举报
回复
up
sai_1573
2009-05-29
打赏
举报
回复
为什么我刚刚发的回的帖子看不到
sai_1573
2009-05-29
打赏
举报
回复
矩阵乘法时间复杂度都是O(3)级别,如果要提高效率,就要考虑分块运算了,这需要更高的线性代数的知识,可以试试...我以前写的矩阵乘法,50W行*3W列,运算过程需要矩阵乘法,求逆,最后再求出最小二乘的结果来,时间大概也需要4分钟左右(机器配置一般)。
你的多多洛
2009-05-29
打赏
举报
回复
算法是很重要的,现在要尽力学好,不然只能干瞪眼。换硬件是治标不治本
fldx
2009-05-29
打赏
举报
回复
回帖是一种美德!每天回帖即可获得 10 分可用分!
觅食的猫猫
2009-05-29
打赏
举报
回复
[Quote=引用楼主 tammy_forward 的帖子:]
运行SDK矩阵相乘例子,把矩阵大小改为512*512的,结果运算时间特长,都比不上手动了,怎么会这样?虽然这个例子没经过优化但也不至于这样吧。
着急,哪位大虾指点一下?或者有性能优化的矩阵相乘例子那就最好了,能给我一个么,好好学习一下?
[/Quote]
顶这个.
越过越咸
2009-05-28
打赏
举报
回复
回帖是一种美德!每天回帖即可获得 10 分可用分!
owen_008
2009-05-28
打赏
举报
回复
学习一下啊
LichKing
2009-05-28
打赏
举报
回复
study
cuiyue1315
2009-05-28
打赏
举报
回复
联老大哥
liuhaifeng1976
2009-05-28
打赏
举报
回复
存储结构。矩阵 何以用数组 树 链表 哈希表。 数组最快,树和链表慢 哈希表最慢
似水流年love
2009-05-28
打赏
举报
回复
我帮不了你,多查查资料吧
bikizhou2010
2009-05-27
打赏
举报
回复
亲爱的哥哥们,施舍点分把,啊门!!!!!!!!
milknull
2009-05-27
打赏
举报
回复
换硬件!!!
加载更多回复(13)
ZED Board从入门到精通系列(八)——Vivado HLS实现
矩阵相乘
转载地址:... ...本节给出较为通用的矩阵与向量相乘
例子
,从全串行到全并行进行了一步步优化实现。 矩阵实验室Matlab是比较常用的数学仿真软件。本博主用的是R2013a版本。为了验证矩阵
CUDA8.0矩阵乘法
例子
解释(matrixMul.cpp)
通过学习英伟达自带的
例子
matrixMul学CUDA库的使用。...这个
例子
是实现 C=A*B的
矩阵相乘
// Use a larger block size for Fermi and above int block_size = 32; //original: dim3 dimsA(5*2*block_size, 5*2*bl
MAX
SDK
中
的矩阵乘积顺序
在MAX插件
中
,经常要遇到坐标系之间的相互转换
问题
,这实际上是一个简单的数学
问题
,只不过由于习惯关系,大部分人都习惯在矩阵
中
以列向量来表示坐标系关系,这样在遇到矩阵的叠加运算时经常会发生错误,...
矩阵乘法——CUDA 优化记录
通常 host 端程序会将数据准备好后,复制到显卡的内存
中
,再由显示芯片执行 device 端程序,完成后再由 host 端程序将结果从显卡的内存
中
取回。 由于 CPU 存取显卡内存时只能透过 PCI Express 接口,因此...
matlab hls,ZED-Board从入门到精通系列(八)——Vivado HLS实现
矩阵相乘
本节给出较为通用的矩阵与向量相乘
例子
,从全串行到全并行进行了一步步优化实现。矩阵实验室Matlab是比较常用的数学仿真软件。本博主用的是R2013a版本。为了验证矩阵向量相乘正确性,我们先用matlab生成测试矩阵和...
CUDA
579
社区成员
2,918
社区内容
发帖
与我相关
我的任务
CUDA
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
复制链接
扫一扫
分享
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章