社区
英特尔边缘计算技术
帖子详情
有关/QxS指定CPU优化的问题
micr0soft
2009-02-06 03:35:46
我做的程序,想在所有CPU下都能得到最佳性能,请问/QaxS能做到嘛?我看了有很多CPU支持选项,请问假如我用了/QaxS编译后再AMDCPU上运行,性能会不会下降呢?还是说再AMDCPU上运行只能用/QxO选项?
...全文
219
5
打赏
收藏
有关/QxS指定CPU优化的问题
我做的程序,想在所有CPU下都能得到最佳性能,请问/QaxS能做到嘛?我看了有很多CPU支持选项,请问假如我用了/QaxS编译后再AMDCPU上运行,性能会不会下降呢?还是说再AMDCPU上运行只能用/QxO选项?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
intel_iclifort
2009-02-07
打赏
举报
回复
/QaxS = /QaxSSE4.1
/QxO = /arch:SSE3
如果能够保证目标处理器平台支持的指令集, 和优化开关针对的Intel处理器完全兼容的话:
1) /Qx所做的优化工作比/arch多一些, 所以如果完全支持, 那么/QaxSSE3的效果会比/arch:SSE3好. 编译器手册上说明了这一点
2) /QaxSSE4.1在针对SSE/SSE3/SSE3/SSSE3优化的基础上, 又增加了对SSE4.1指令的优化
micr0soft
2009-02-06
打赏
举报
回复
感谢回答。
但是我后面测试了一下,发现用AMD5000+ CPU 下,使用/QaxS 选项的速度明显比 /QxO 的速度要快,不知为何
intel_iclifort
2009-02-06
打赏
举报
回复
另外, 11.0版本缺省认为你的处理器平台至少能够支持SSE2指令, 所以不做任何设置时, 默认就是/arch:SSE2
如果还希望保留对所有IA32架构的支持, 需要手动添加选项/arch:IA32
比方说:
Linux: icc -axSSSE3,SSE3 -mia32 sample.c
Windows: icl /QaxSSSE3,SSE3 /arch:IA32 sample.c
intel_iclifort
2009-02-06
打赏
举报
回复
为了方便使用, 从11.0版本起, Intel编译器针对处理器优化的选项进行了改变. 主要是: 1)引入了/arch选项, 支持兼容平台; 2)改变处理器命名规则为指令集名称, 更容易记忆和区别
参考如下:
/QaxW ==> /arch:SSE2
/QaxN ==> /QaxSSE2
/QaxP ==> /QaxSSE3
/QaxS ==> /QaxSSE4.1
/QaxT ==> /QaxSSSE3
/QxW ==> /arch:SSE2
/QxN ==> /QxSSE2
/QxO ==> /arch:SSE3
/QxP ==> /QxSSE3
/QxT ==> /QxSSSE3
/QxS ==> /QxSSE4.1
intel_iclifort
2009-02-06
打赏
举报
回复
[Quote=引用楼主 micr0soft 的帖子:]
我做的程序,想在所有CPU下都能得到最佳性能,请问/QaxS能做到嘛?
[/Quote]
/QaxS中 xS 只能针对支持Intel® Streaming SIMD Extensions 4 (SSE4) Vectorizing Compiler and Media Accelerators instructions的处理器做到最大程度的优化, a 确保程序能在所有的IA-32架构处理器上运行(性能未必是最佳的)
[Quote=引用楼主 micr0soft 的帖子:]
我看了有很多CPU支持选项,请问假如我用了/QaxS编译后再AMDCPU上运行,性能会不会下降呢?还是说再AMDCPU上运行只能用/QxO选项?
[/Quote]
使用/QaxS, 在AMD CPU上运行时可能会选择通用优化的路径(没有SSE/SSE2支持), 性能会下降的. 建议用/QxO选项
XgBoost
GBDT与XGBoost小松
qxs
关注22019.01.29 16:56:47字数 5,807阅读 3,894之前介绍过梯度下降法与牛顿法,GBDT与XGBoost就与这两种方法有关。 boosting(包括GBDT、XGBoost)是一个加法模型,有以下优缺点: 优点: • 可解释性强 • 可处理混合类型特征 • 具体伸缩不变性(不用归一化特征) • 有特征组合的作用 • 可...
android/java知识点
> 一般大家都知道ArrayList和LinkedList的大致区别: 1.ArrayList是实现了基于动态数组的数据结构,LinkedList基于链表的数据结构。 2.对于随机访问get和set,ArrayList觉得优于LinkedList,因为LinkedList要移动指针。 3.对于新增和删除操作add和remove,LinedList比较占优势,因为ArrayList要移动数据。
Python快速进阶知识点【岗前必备技能】
Python 课程方向: Web全栈(前端Vue,后端服务(前端App-小程序、 Android/iOS 手机App、 H5 响应式网站)、 自动化测试(UI/功能性测试、 接口测试)、开发运维(Linux、部署、 Docker) ) 、 数据分析+AI+开发(爬虫、Excel文件处理、商业化Power BI、Numpy+Pandas+Notebook+sklearn机器学习算法模型、 Tensorflow/keras/PyTouch 深度机器 学习框架) 【重要提示】感兴趣的同学,可以加Disen.
AWR 文档翻译(1)AWR, ASH, ADDM and Sql Tuning Advisor概述
AWR, ASH, ADDM and Sql Tuning Advisor (文档 ID 276103.1) ...
OpenCV3 和 Qt5 计算机视觉:6~10
原文:Computer Vision with OpenCV 3 and Qt5 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 计算机视觉 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 当别人说你没有底线的时候,你最好真的没有;当别人说你做过某些事的时候,你也最好真的做过。 六、OpenCV 中的图像处理 它始终以未经处理的原始图像开始,这些图像是使用智能手机,网络摄像头,DSLR 相机,或者简而言之,是能够拍摄和记录图像数据的任何设备拍摄的。 但是,通常以清
英特尔边缘计算技术
567
社区成员
7,024
社区内容
发帖
与我相关
我的任务
英特尔边缘计算技术
英特尔® 边缘计算,聚焦于边缘计算、AI、IoT等领域,为开发者提供丰富的开发资源、创新技术、解决方案与行业活动。
复制链接
扫一扫
分享
社区描述
英特尔® 边缘计算,聚焦于边缘计算、AI、IoT等领域,为开发者提供丰富的开发资源、创新技术、解决方案与行业活动。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章