社区
张岳升的课程社区_NO_1
AIGC大模型理论与工业落地实战
帖子详情
MLA2-MHA,MQA,GQA简介和显存占用机制
NLP小讲堂
2025-09-02 11:10:50
课时名称
课时知识点
MLA2-MHA,MQA,GQA简介和显存占用机制
MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制
...全文
36
回复
打赏
收藏
MLA2-MHA,MQA,GQA简介和显存占用机制
课时名称课时知识点MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
DeepSeek-V3解析1:多头潜在注意力.pdf
deepseek最新资讯、配置方法、使用技巧,持续更新中
MHA
、
MQA
、
GQA
、MLA
方法QK/V计算效率模型容量
MHA
每个头独立每个头独立低高
MQA
每个头独立全局共享高低
GQA
每个头独立组内共享中中
MQA
适合推理加速(如 LLama-2 70B 使用
MQA
)。
GQA
在保持较高性能的同时减少计算(如 LLama-3 使用
GQA
)。
MHA
适用于对性能要求极高的场景。
MHA
、
MQA
、
GQA
与MLA的对比分析
本文对比分析了四种主流注意力
机制
(
MHA
、
MQA
、
GQA
、MLA)的技术原理和性能差异。
MHA
通过独立参数实现高表达性但内存
占用
大;
MQA
采用全局KV共享大幅提升效率但可能损失精度;
GQA
通过分组共享在两者间取得平衡;MLA创新性引入低秩压缩和解耦位置编码,在长序列场景下展现显著优势。四者形成从"完全独立"到"共享压缩"的技术演进路径,为不同应用场景提供灵活选择。
从
MHA
、
MQA
、
GQA
到MLA
尤其是在长上下文的情况下,KV Cache的大小会随着输入长度的增加而增长,从而影响了模型的推理速度和资源消耗。通过对
MHA
、
MQA
、
GQA
和MLA的分析,我们可以看到,随着技术的发展,模型设计不断优化,以应对现实应用中的各种挑战。这篇文章详细介绍了从
MHA
到MLA的演变过程,强调了在推理过程中缓存的重要性,以及如何通过不同的模型设计来减少缓存的需求。,显著降低了
显存
的
占用
。在推理阶段,MLA通过共享K和V的方式,将KV Cache的大小保持在合理范围内,从而避免了
MHA
带来的
显存
瓶颈。
理解
MHA
、
GQA
、
MQA
和 MLA:多头注意力的变种及其应用
在深度学习、自然语言处理(NLP)和计算机视觉(CV)中,多头注意力(Multi-Head Attention,
MHA
)是 Transformer 结构的核心。近年来,
MHA
产生了多个变体,如和,这些改进主要用于提高计算效率和减少计算开销。本文将深入探讨这些注意力
机制
的工作原理、数学公式、优缺点及应用场景,帮助理解Transformer 及其改进版本。
张岳升的课程社区_NO_1
1
社区成员
99
社区内容
发帖
与我相关
我的任务
张岳升的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章