大模型的稀疏激活方法及其高效推理应用研究：基于dReLU激活函数

优质创作者: 编程框架技术领域

领域专家: C/C++技术领域

2024-12-25 20:51:49

大模型的稀疏激活方法及其高效推理应用研究：基于dReLU激活函数

...全文

60 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

方法1、LayerNorm需要在每个样本的特征维度上计算均值和标准差，这可能在特征维度非常大时导致较高的计算开销，且LayerNorm可以稳定训练。BatchNorm使用训练时的统计均值和方差数据直接计算，导致较低的推理延迟，但可能导致训练崩溃和较差的性能。提出了一种PRepBN的新方法，通过使用超参数lamda来控制两个归一化层的比例，在训练中逐步用重新参数化的BatchNorm替换LayerNorm。代码实现。

研究了KV缓存的元素分布。对于key缓存，存在一些固定的通道，其幅度非常大，这与Awq论文中提到的结果一致。因此key缓存应该按通道进行量化，即沿着通道维度对元素进行分组，并将它们一起量化。这样，它可以将误差限制在每个单独的通道，而不会影响其他正常通道。对于value缓存，没有明显的离群值模式。但实验表明，它只能按token进行量化，因为它用于计算注意力输出，这本质上是一个value缓存混合器。每个令牌的量化可以将误差限制在每个单独的令牌内，并确保一个令牌的量化不会对其他令牌产生不利影响。

苹果一出手，不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是3B，谷歌的是2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与OpenAI合作，通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。这样一来，苹果的混合方案引起了非常多。如果苹果在操作系统层面集成OpenAI，那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。

让大模型在边缘设备高效运行，本文详解本地部署：大模型轻量化技巧，涵盖模型剪枝、量化压缩、知识蒸馏与架构优化四大核心技术，适用于物联网、移动端等低资源场景，提升推理速度并降低功耗，值得收藏。

今天深度学习了吗

34,109

社区成员

152

社区内容

发帖

与我相关

我的任务

人工智能图像处理深度学习个人社区浙江省·杭州市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章