基于openvino 2019R3的推理性能优化的学习与分析 (三) 基于CPU的推理(inference)性能分析

英特尔开发人员专区

企业官方账号

2020-09-28 04:04:58

加精

根据前面2部分对benchmark_app的分析，重新改写了一下benchmark的代码，主要去掉了命令传递参数的方法，所有参数改为代码里hard code;去掉了智能指针之类的高级用法，只使用简单的操作系统提供的多线程同步接口。这么做的目的是为了以后把inference这部分作为一个模块，可以更简单的集成进自己的程序里 :)

首先看一下纯CPU的mobilenet-ssd FP32模型的推理性能, 我手里是个i5 7440HQ的4核4线程的移动处理器,

首先batch size = 1，即每次推理只输入一张图片,

inference request(nireq) = 1时，即同时只有一个推理请求

每推理100帧计算打印一下单次推理所需的时间Latency（us），以及总的推理性能throughput (FPS)

此时Latency为28ms左右, Throughtput为36FPS

inference request(nireq) = 4时，即设置CPU_THROUGHPUT_STREAMS = CPU_THROUGHPUT_AUTO时，openvino建议的并发数为4，同时并发4个推理请求

此时Latency为40ms左右, Throughtput为96FPS

可以看到同时并发4路推理时，单路推理的时间会变长，但是总的吞吐量大大提升，说明硬件被更充分的利用了。同时每路推理处理的帧数大致相同，大约25frame左右，一致性还不错，基本上可以保证先推理先结束

接下来看看batch size = 3，inference request(nireq) = 4时。即每次推理处理三张图片, 4路推理并发

随着单次推理数据的增大，单帧Latency略有变大(这里代码写错了，真实数字应该除以9），FPS也略有下降。增大单次数据量对性能反而有负面影响。说明硬件的处理能力也就这么回事了，再多的数据也只能增加程序反复调度的开销，无法在性能上再进一步了。

最后测一下纯CPU的mobilenet-ssd FP16模型的性能，发现性能和FP32基本一致。这也印证了openvino官网上说的, CPU的推理时，如果加载FP16的模型，会在加载时把FP16转为FP32

简单总结一下，OpenVINO的CPU推理

推理并发数决定了Lantency的大小，如果需要快速得到推理结果，最好并发数为1，即让openvino集中所有硬件做单次推理。如果要获得高吞吐量，则需要增多并发数。
CPU推理时的"CPU_BIND_THREAD"基本是鸡肋，因为并不能指定bind到哪颗物理内核，所以可能会造成负面影响(和其他代码都绑到同一个物理核上）
CPU推理时加载FP32/FP16模型，推理性能是一样的
CPU推理非常容易受到后台程序的影响，比如后台的病毒扫描，或者windows update线程，性能可能会下降超过10%
极限挖掘CPU推理性能时很容易造成CPU过热导致降频，这时候可以听到风扇狂响，这时候性能也会急剧会下降

...全文

51593 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

hookee 2021-03-06

打赏
举报

回复

Giberson1 2021-01-13

打赏
举报

回复

这不就是超频吗，寿命骤降意义不大。耗损的寿命不如加点钱，去买个配置更好的GPU产品，你这种尝试毫无意义，只是在菜鸟前面放大招，奥利给。

weixin_42066565 2020-11-16

打赏
举报

回复

来学习来学习

dv_zheng 2020-10-24

打赏
举报

回复

6666666666666666666666666666

安装openvino及猫狗目标检测（实验报告）

内容概要：本文提出了一种新的方法R3（Learning Reasoning through Reverse Curriculum Reinforcement Learning），该方法利用只有最终结果监督（outcome supervision）的优势来模拟步骤级监督（process supervision）的效果，从而解决复杂推理任务中稀疏奖励的问题。R3通过从正确示范的末端逐步向前滑动推理起始状态，为每个阶段提供更为精确的错误定位与监督信号，有效提升了大型语言模型在多种推理任务中的表现。适合人群：对深度学习、自然语言处理和强化学习有研究兴趣的科研人员及高级开发者。使用场景及目标：① 适用于需要多步推理的任务优化，如数学解题、逻辑推理、自然语言理解等；② 提高大规模预训练模型的泛化能力和推理准确性；③ 在没有额外数据支持的情况下，使小型模型达到甚至超过更大规模模型的表现。其他说明：论文实验涵盖了逻辑推理、数学计算、程序执行等多个维度的数据集，并与其他监督方式进行了对比测试。结果显示，在不同难度级别的任务上，R3均表现出稳定且优于基线的方法。

零售分析细节目标操作系统： Ubuntu * 18.04 LTS 程式语言： Python * 3.5 完成时间： 50-70分钟它能做什么该智能零售分析应用程序可以监视人员活动，计算零售商店内部的人员总数并通过检测用户指定的产品来检查库存。它通过使用视频或摄像机资源来检测任意数量的屏幕上的对象。要求硬件具有Iris:registered:Pro图形或Intel:registered:HD图形的第六代至第八代Intel:registered:Core:trade_mark:处理器软件注意：我们建议将此软件与4.14+ Linux *内核一起使用。运行以下命令以确定您的内核版本： uname -a OpenCL:trade_mark:运行时软件包英特尔:registered:OpenVINO:trade_mark:工具包2020 R3发行版 Grafana * v5.3.2 InfluxDB * v1.6.2 这个怎么运作该应用程序使用OpenVINO:trade_mark:工具箱的英特尔:registered:发行版中包含的推理引擎。它接受

人事柜台细节目标操作系统： Ubuntu * 18.04 LTS 程式语言： Python * 3.6 完成时间： 45分钟它能做什么人员计数器应用程序是一系列IoT参考实现之一，旨在指导用户如何针对特定问题开发可行的解决方案。它演示了如何使用英特尔:registered:硬件和软件工具创建智能视频IoT解决方案。该解决方案可检测指定区域中的人员，从而提供框架中的人员数量，框架中人员的平均持续时间以及总数。要求硬件具有Iris:registered:Pro图形或Intel HD图形的第六代至第八代Intel酷睿处理器。软件注意：我们建议将此软件与4.14+ Linux内核一起使用。运行以下命令以确定您的内核版本： uname -a 英特尔:registered:OpenVINO:registered:工具包2020 R3发行版 OpenCL运行时包节点v6.17.1 Npm v3.10.10 MQTT Mosca *服务器使用哪种

购物者注视监控器细节目标操作系统： Ubuntu * 18.04 LTS 程式语言： Python * 3.5 完成时间： 30分钟它能做什么该购物者注视监控器应用程序是为零售货架安装的摄像头系统设计的，该摄像头系统计算了路人的人数和朝着显示屏看的人数。它旨在为店内货架广告提供真实的市场营销统计信息。要求硬件具有Iris:registered:Pro图形或Intel:registered:HD图形的第6至第8代Intel:registered:Core:trade_mark:处理器软件 Ubuntu 18.04 OpenCL:trade_mark:运行时软件包注意：我们建议使用4.14+内核来使用此软件。运行以下命令以确定您的内核版本： uname -a 英特尔:registered:OpenVINO:trade_mark:工具包2020 R3发行版这个怎么运作该应用程序使用英特尔OpenVINO发行版工具包和英特尔深度学习部署工具包中包含的推理引擎。它使用视频源（例如摄像机）来抓取帧，然后使用两

英特尔边缘计算技术

567

社区成员

7,024

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章