QNNPACK 每个算子从代码逻辑上可以分为几个阶段？

爱老虎油不如爱loveyou 2023-05-25 14:04:17

QNNPACK 每个算子从代码逻辑上可以分为几个阶段？

...全文

1753 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2023-05-25

打赏
举报

回复

第一：卷积的数据准备
第二：运行
第三：内存清理

前言前段时间因为项目需求，搞了一段时间的前向优化，主要参考了Facebook 18年开源的神经网络加速库QNNPACK。 QNNPACK针对INT8的量化网络，对神经网络的各个算子都提供了非常高效的优化方案，传言其卓越的性能几乎击败了全部已公开的加速算法，不管真假，就优化方案而已个人觉得还是比较新颖，值得好好研究的。到目前为止，QNNPACK已经开源一年多了，除了不多的官方资料之外，民间资料...

分享关于 PyTorch 源码阅读经验和 PyTorch 代码结构的资料。

某些加速器有专用格式来表示神经网络，如 ARM Ethos-N 和 Xilinx Vitis AI，为了满足这种需求，该框架提供了一组统一的 API 来定制序列化的代码格式：1）将生成的代码编译和序列化为一个 bit 流，以便其可以与其他子模块一起实例化；2）在运行时反序列化来自子模块的 bit 流至此，针对 DNN 模型的编译和打包模块已经完成，之后进入运行时系统加载模块并执行推理。

原文前言本系列的目是详细叙述当前移动端Int8的方方面面，从最底层的Int8的汇编层实现原理以及汇编性能优化手段，到中间层的移动框架的配套代码实现（标准就以NCNN为例吧），以及上层对应的PC端量化方法（各种论文思路）总结及实现，和最后模型端re-train的方法、策略及指标介绍。此外，利用PowerPerf（一种专门针对ARM CPU应用性能优化而开发的调试工具）对卷积kernel（汇编算子）各项硬件参数指标进行量化优化也是本文的重点，旨在提炼出一套通用的汇编代码调优方法论，从而使得Powe

这个网络的写法应该是很常见的，结构非常简单。，由于 FX 可以自动跟踪 forward 里面的代码，因此它是真正记录了网络里面的每个节点，在 fuse 和动态插入量化节点方面，要比 Eager 模式强太多。这一套流程下来不可谓不繁琐，而且，这只是一个相当简单的网络，遇上复杂的，或者是别人天马行空写完丢给你量化的网络，分分钟可以去世。，由于它只会对 init 函数里面定义的模块进行替换，因此，如果有一些 op 没有在 init 中定义，但又在 forward 中用到了（比如上面代码的。

高通开发者论坛

5,339

社区成员

5,922

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章