社区
张岳升的课程社区_NO_1
AIGC大模型理论与工业落地实战
帖子详情
MLA1-KV-Cache和模型推理访存占用
NLP小讲堂
2025-09-02 11:08:33
课时名称
课时知识点
MLA1-KV-Cache和模型推理访存占用
MLA1-KV-Cache和模型推理访存占用MLA1-KV-Cache和模型推理访存占用MLA1-KV-Cache和模型推理访存占用
...全文
28
回复
打赏
收藏
MLA1-KV-Cache和模型推理访存占用
课时名称课时知识点MLA1-KV-Cache和模型推理访存占用MLA1-KV-Cache和模型推理访存占用MLA1-KV-Cache和模型推理访存占用MLA1-KV-Cache和模型推理访存占用
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
大
模型
推理
--
KV
Cache
压缩
这篇博客本应完成于24年9月,但是由于入职新公司之后上下班距离较远下班之后无力再动脑,遂拖到现在才完成,而且再看文章内容感觉不少部分都已过时,但还是可以当做一篇综述性文章来读,了解
KV
Cache
压缩的历史。在之前的博客《》中我们简单提到了
KV
Cache
在超长上下文下过大的问题。为了使得大
模型
推理
能支持超长上下文,我们必须要对
KV
Cache
进行压缩,本博客就介绍一下目前常用的压缩手段。我们还是引用PagedAttention中给出的例子,看一下
KV
Cache
到底有多大。
探秘Transformer系列之(20)---
KV
Cache
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
大
模型
推理
--MLA
本来想写一篇
KV
Cache
压缩的综述性博客,结果写到MLA部分的时候发现越写越多,完全值得单独拿出来写篇博客,遂从
KV
Cache
压缩博客中单独揪出MLA进行介绍。MLA(Multi-query Latent Attention)是国内创业公司deepseek在24年5月份发布的大
模型
中用到的
KV
Cache
压缩技术,正是在该技术的加持下DeepSeek-V2可以大幅压缩
KV
Cache
的大小,进而大幅提升吞吐量,也正是从该
模型
开始,大
模型
推理
的价格一下降低到一个很低的水平。
探秘Transformer系列之(24)---
KV
Cache
优化
探秘Transformer系列之(24)
KV
Cache
优化 目录探秘Transformer系列之(24)
KV
Cache
优化0x00 前言0x01 背景知识1.1 度量指标1.1.1 吞吐量1.1.2 延迟1.2 内存危机1.3
KV
Cache
问题0x02 总体思路2.1 分类2.2 从公式
大
模型
KV
Cache
节省神器MLA学习笔记(包含
推理
时的矩阵吸收分析)
这篇文章主要是对Deepseek2提出的优化
KV
Cache
的MLA方法做个人理解,特别是关于MLA的矩阵吸收部分,这部分Paper以及官方开源实现没有给出。然后,开源社区大佬确实出手很快,在知乎的《如何看待 DeepSeek 发布的 MoE 大
模型
DeepSeek-V2?
张岳升的课程社区_NO_1
1
社区成员
99
社区内容
发帖
与我相关
我的任务
张岳升的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章