社区
张岳升的课程社区_NO_1
AIGC大模型理论与工业落地实战
帖子详情
LLM-高阶Attention3-线性Attention数学表达
NLP小讲堂
2024-03-13 08:57:12
课时名称
课时知识点
LLM-高阶Attention3-线性Attention数学表达
LLM-高阶Attention3-线性Attention数学表达123
...全文
74
回复
打赏
收藏
LLM-高阶Attention3-线性Attention数学表达
课时名称课时知识点LLM-高阶Attention3-线性Attention数学表达LLM-高阶Attention3-线性Attention数学表达123
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
LLM
-Pruner: On the Structural Pruningof Large Language Models
大型语言模型(
llm
)在语言理解和生成方面表现出了显著的能力。然而,这种令人印象深刻的能力通常伴随着相当大的模型大小,这在部署、推理和训练阶段都提出了重大的挑战。由于
LLM
是一个通用任务求解器,我们以任务不可知的方式探索其压缩,旨在保留原始
LLM
的多任务求解和语言生成能力。实现这一目标的一个挑战是
LLM
的训练语料库的巨大规模,这使得数据传输和模型后训练都过于繁重。任务无关性和对原始训练数据集的依赖最小化。我们的方法被命名为
LLM
- pruner,采用基于梯度信息选择性去除非关键耦合结构的结构性剪枝。
llm
-course,狂飙20K Star,GitHub上最全的开源大模型教程
这是我在GitHub上发现的最全的开源大模型教程,作者整合了大量
LLM
教材和资料,绘制学习路线图。可以帮助初学者快速掌握大模型的应用和开发技巧,也可以帮助有经验的数据科学家进一步提升。
ICML 2025 | Transformer 性能大提升:CCA-
Attention
替代自注意力模块,
LLM
长文本建模突破
随着大语言模型(
LLM
)在自然语言处理中的广泛应用,长上下文建模已成为其关键能力之一。然而,随着上下文长度的增加,冗余信息积累带来的计算开销成了一个亟待解决的问题。南方科技大学与鹏城实验室的研究团队提出了 Core Context Aware
Attention
(CCA-
Attention
),该方法通过创新的全局感知池化与局部保留模块,显著减少冗余信息并提高长上下文建模的效率。实验结果表明,CCA-
Attention
在处理长上下文时的计算效率和性能均优于现有方法。
deepseek技术解读-彻底理解MLA(Multi-Head Latent
Attention
)
本文试图通过引入更多基础知识和辅助信息,来深入理解MLA。内容比较长,可能觉得比较啰嗦。这是本人在理解MLA过程递归总结的一些扩展信息,最终整理了一个系统的脉络,发出来供大家参考。
LLM
- 大模型推荐系统范式 生成式推荐器(Generative Recommenders) 简读
生成式推荐器(Generative Recommenders, GRs) 是 大模型推荐系统范式,将推荐问题重新定义为序列直推任务,设计新的架构 层次序列直推单元 HSTU(Hierarchical Sequential Transduction Units),以应对高基数、非静态的推荐数据流。HSTU 在合成数据集和公共数据集上的 NDCG 性能比基线高出 65.8%,在处理 8192 长度序列时比基于 Flash
Attention
2 的 Transformer 快 5.3~15.2 倍。
张岳升的课程社区_NO_1
1
社区成员
99
社区内容
发帖
与我相关
我的任务
张岳升的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章