最近在做量化实现,发现实现之后其实并没有怎么降低latency??
量化能变快需要充分利用相应的低比特指令,量化≠更快,想变快一方面需要硬件指令支持,另一方面需要精心优化,这部分可以参考一些开源的推理库比如tnn ncnn mnn tengine,里面基本都有高效的8bit卷积实现。
955
社区成员
5,251
社区内容
加载中
试试用AI创作助手写篇文章吧