9-mask机制的作用

迪哥有点愁了 2023-01-12 22:45:17

课时名称	课时知识点
9-mask机制的作用	9-mask机制的作用

...全文

257 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

注意力机制的解释性博客比较多质量良莠不齐，推荐大家观看李宏毅老师关于注意力机制的讲解视频以及本人觉得对注意力机制讲解比较透彻的一篇博客[为更好解读注意力机制中attention-mask 的作用，现将注意力机制的原理进行总结。假设两个输入经过Wq、Wk、Wv矩阵（可训练）线性变换后获得q1=(1,2),q2=(0,1)，k1=(1,0),k2=(0,1)，v1=(1,0),v2=(0,1)向量。注意力机制核心就是向量q与向量k点乘后获得相似性分数（一个标量)。同理 q2也与所有的k向量点乘获得。

flashattention2-custom-mask：实现自定义掩码的注意力机制项目介绍在现代自然语言处理（NLP）和深度学习领域中，注意力机制是提高模型性能的关键技术之一。FlashAttention2 是一种高效的注意力机制实现，但标准的 FlashAttention2 实现不支持任意的自定义掩码。flashattention2-custom-mask 项目正是为了解决这个问题而诞生的，...

本文转载于NLP 中的Mask全解 - 知乎 Mask 在NLP中是一个很常规的操作，也有多种应用的场景和形式，下面尝试从以下几个方面去全（用了夸张的修辞手法）解Mask，并尽可能地辅以图片说明和代码解释： Mask的作用：处理非定长序列 RNN中的Mask Attention中Mask 防止标签泄露 Transformer中的Mask BERT中的Mask XLNet中的Mask Mask的作用对于NLP中mask的作用，先上结论： 1、padd

阅读源代码后我们发现，首先，传入forward的参数中，slf_attn_mask对应传入的是trg_mask，dec_enc_attn_mask对应传入的是src_mask。src_mask是消除掉为了补齐长度而用来padding的元素对注意力的影响得到的mask（对应函数get_pad_mask)，而trg_mask除了此种掩码之外，还用到了一个消除掉暂时还未解码出的字的影响的掩码机制(对应函数get_subsequent_mask)。原理与之前类似，只不过不Q的序列长度会与K不同。

本文介绍了自然语言处理中的两种核心Mask机制：PaddingMask和SentenceMask。PaddingMask用于处理变长序列，通过标记填充位置确保模型忽略无效数据；SentenceMask则防止自回归任务中的信息泄露，保证模型仅依赖历史信息。文章详细解析了两种Mask的作用原理、实现方式（如上三角矩阵生成）及典型应用场景（如Transformer、BERT、GPT等模型），并强调在TransformerDecoder中需组合使用两种Mask。文末通过对比表总结关键差异，指出理解这两种机制是掌握现

唐宇迪的课程社区_NO_6

1

社区成员

956

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章