剪枝会加快模型的推理速度??

jke0808 2021-12-30 11:48:24

剪枝会加快模型的推理速度??

...全文
2019 1 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
weixin_38498942 2021-12-30
  • 打赏
  • 举报
回复 1

这个是由具体的剪枝方法决定的,权值连接剪枝,一般情况下,不能加快推理速度;节点或者filter剪枝可以加快网络的推理速度。

内容概要:文章提出了一种名为LazyLLM的新方法来加速大型语言模型(LLM)在处理长输入文本时的时间到首个标记的时间(TTFT)。该方法通过动态选择对预测下一个标记至关重要的输入标记,而不进行静态一次性的全部预填充阶段计算,有效减少了不必要的计算开销。LazyLLM允许在不同生成步骤中有选择性地计算KV缓存并可以恢复以前被剪枝掉但后来又被重新选择的重要标记。此外,还引入了辅助缓存机制(Aux Cache),用于减少重复计算,从而确保最坏情况下的运行时间不慢于基线模型。大量实验表明,LazyLLM不仅显著提高了LLM在多个标准数据集和跨任务表现上的一次代币预测速度,而且还能够在不损失准确性的情况下实现这一点。 适用人群:主要适用于对高效计算有需求的研究人员和技术专家,以及关注深度学习架构改进与应用的人群。 使用场景及目标:适用于需要提高长上下文对话系统响应时间和降低推理成本的应用场景;比如实时问答、多文档问答和其他涉及长序列处理的任务。具体来说,LazyLLM旨在减少大语言模型在执行长文本处理任务时所产生的高昂运算资源消耗。 其他说明:此研究表明,在处理长时间序列的语言模型时,采用适当的动态裁剪策略不仅可以大幅加快模型速度,同时也能够保持原有的精度水平,这对于推动自然语言处理领域的研究和发展有着重要意义。

4,654

社区成员

发帖
与我相关
我的任务
社区描述
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。 高通开发者专区主页:https://qualcomm.csdn.net/
人工智能物联网机器学习 技术论坛(原bbs) 北京·东城区
社区管理员
  • csdnsqst0050
  • chipseeker
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧