社区
英特尔边缘计算技术
帖子详情
一个利用Openmp优化程序的问题
lishengjie
2010-10-09 09:59:59
我用openmp写了一个例程,比较优化前后的性能。
核心算法是一个4x4的矩阵乘法,调用2000000次。
我使用
#pragma omp parallel for
for(int i = 0;i<2000000;++i)
DoTest();
发现openmp消耗的时间比,普通的串行多很多。
使用vs2008 sp1
有高手给点建议么?
...全文
145
3
打赏
收藏
一个利用Openmp优化程序的问题
我用openmp写了一个例程,比较优化前后的性能。 核心算法是一个4x4的矩阵乘法,调用2000000次。 我使用 #pragma omp parallel for for(int i = 0;i<2000000;++i) DoTest(); 发现openmp消耗的时间比,普通的串行多很多。 使用vs2008 sp1 有高手给点建议么?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
lishengjie
2010-10-11
打赏
举报
回复
解决部分问题,至少现在并行比串行快,但还没看到能快2倍。子函数里事情做多了,只保留计算部分即可。
shayla
2010-10-09
打赏
举报
回复
1:不知道你的机器是不是多核的.
2:可以打出线程ID看是否有多个线程在执行
lishengjie
2010-10-09
打赏
举报
回复
双核,两个线程在跑。我感觉可能是4x4的矩阵乘法的运算量不大,消耗在线程上的开销比真实运算大。
但问题是,大量的小任务计算,如何通过并行来加速呢?
OPENMP
优化
实例
include False Sharing , Block Matrix Update and Neural Network,it's a good example to learn
OpenMP
and improve speede
MPI
OpenMP
混合编程解决N-Body
问题
MPI
OpenMP
混合编程解决N-Body
问题
华南理工 高性能云计算
利用
OpenMP
/CUDA/MPI对FFT算法
优化
程序
课程报告
利用
OpenMP
/CUDA/MPI三种
优化
方法,实现对快速傅里叶(FFT)算法
优化
程序
课程报告。。。。。。。。
MPI与
OpenMP
并行
程序
设计:C语言版,mpi和
openmp
混合编程,C,C++
MPI与
OpenMP
并行
程序
设计:C语言版
利用
OpenMP
线程绑定技术提升多核平台应用性能
多核平台下,线程在核间的动态迁移在一定程度上会导致应用
程序
性能的下降,如果将线 程绑定在固定的核上运行,使其不再迁移,这种方法将有可能提升应用
程序
性能,更充分的利 用多核平台的计算能力。本文将介绍如何使用主流的编译器绑定接口以及Linux内核API的方式 实现
OpenMP
线程与核之间的绑定,使用STREAM这一benchmark来测试比较绑定前后的应用程 序的性能。
英特尔边缘计算技术
568
社区成员
7,024
社区内容
发帖
与我相关
我的任务
英特尔边缘计算技术
英特尔® 边缘计算,聚焦于边缘计算、AI、IoT等领域,为开发者提供丰富的开发资源、创新技术、解决方案与行业活动。
复制链接
扫一扫
分享
社区描述
英特尔® 边缘计算,聚焦于边缘计算、AI、IoT等领域,为开发者提供丰富的开发资源、创新技术、解决方案与行业活动。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章