一段OpenMP程序在Linux与Windows系统下的加速性能不同

zkbit1988 2011-12-06 03:55:28

一个四路4核的工作站，装有windows与linux两个操作系统，都是64位的。但同一段OpenMP程序，在Windows中使用VS 2010或Intel C++编译器编译，能达到比较良好的加速比，8个线程在7.5左右，16个线程在12左右。反而在linux下，无论是g++还是icpc编译，2个线程1.6左右，4个线程1.2左右，8个线程与16个线程的执行时间要远大于串行执行。

用Vtune性能分析器分析Hotspots与Locks and Waits，发现：
在Windows下主要是Omp barrier的开销增加了wait time影响了性能，这个很正常；
在Linux下Locks and Waits分析得出的wait time只是显示了几毫秒的IO开销，但在Hotspots中，占用时间最长的已经不是程序本身的计算，在centOS系统中运行下占用时间最多的是VDSO开销，随线程数线性增长，8个线程时占用总CPU时间已经达到70%；在RedHat系统下运行则是属于libc-2.5.so的两个函数，分别是_lll_unlock_wake_private与_lll_lock_wait_private,执行时间与VDSO开销类似。

在循环中使用到的shared变量在一次循环的计算过程中均是只读的，只是在最后的循环结束处需要将计算的结果填入到一个数组中，而这个数组是共享的。那么，linux环境下的开销到底可能是来自哪里呢？

...全文

282 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

zkbit1988 2011-12-07

打赏
举报

回复

发现问题了，循环中使用了rand()函数来获取随机数，但是这个函数不是多线程安全的，换成rand_r()就好了

"WIN下Intel MKL库 2018(32位)" 这个标题指出了我们讨论的主题是针对Windows操作系统的一个特定版本的英特尔数学核心函数库（Intel Math Kernel Library, 简称MKL），该版本为2018年发布，并且是适用于32位系统的。...

- **并行**：多核处理器允许不同核心上的线程真正同时运行，旨在通过分配任务到多个核心上来加速任务的完成。 #### 五、Intel TBB简介 Intel TBB是一款由英特尔开发的开源并行编程库，它提供了一系列高级抽象，...

在Windows上，可能是`C:\Program Files\`下的一个目录。在"opencv_build-main"这个文件中，很可能是OpenCV构建过程的主要脚本或配置文件。这个文件可能是用于自动化整个构建过程的bash脚本或者Python脚本，包含了...

影响性能的主要因素根据前述的Amdahl定律，我们应当努力...在这些运行时的程序库对程序并行加速的同时需要运行库的本身，因此，库中代码的运行必然会带来一定的开销。实际上，并不是所有的代码都是需要并行化的，非常

最近面试总是谈到效率问题，这个问题以前一直没考虑过，就是稀里糊涂的写。...你想让你的程序在改动很少代码的基础上免费的飞奔起来吗？如果答案是肯定的，向您推荐Inter免费的OpenMP。 OpenMP是基于多核处

英特尔边缘计算技术

568

社区成员

7,024

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章