Transformer模型中最重要的multi-head attention 多头注意力机制，是模型的核心，且模型最重要的贡献就是这个多头注意力机制了，其它的就是模型堆叠了。相比我们的multi-head attention 多头注意力机制，那么我-CSDN社区

人工智能研究所 2023-12-11 07:57:37

Transformer模型中最重要的multi-head attention 多头注意力机制，是模型的核心，且模型最重要的贡献就是这个多头注意力机制了，其它的就是模型堆叠了。相比我们的multi-head attention 多头注意力机制，那么我们前期分享的Attention注意力机制便是其中的一头了，为何需要multi-head attention 多头注意力机制，其实这跟我们对人，事，物评估一样，不同的人对同一个人，同一件事，会有不同的看法，若单单听信某一个人的意见，必然会产生偏差。若很多人来评价一件事情，综合多人的意见，必然距离真相是最近的。multi-head attention 多头注意力机制也是同样的道理，有多个矩阵来关注相同的输入矩阵，最后模型综合多个头的权重信息来获取最终的输出权重，这样得到的最终注意力必然是最有效的。根据multi-head attention 多头注意力机制的计算公式，我们知道每一个头就是一个Attention注意力机制。其实就是把一个头的注意力机制拆分成多个头，利用多个头的注意力来综合考虑输入矩阵的各个维度的信息,更多详细介绍，参考transformer专栏#动图详解Transformer

...全文

131 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

原文名称：Attention Is All You Need 原文链接：https://arxiv.org/abs/1706.03762 最近Transformer在CV领域很火，Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的（之前的RNN模型记忆长度有限且无法并行化，只有计算完tit_iti时刻后的数据才能计算ti+1t_{i+1}ti+1时刻的数据，但Transformer可以）。在这篇文章中作者提出了S

今天介绍transformer模型的Multi-Head Attention多头注意力。通过之前文章，假定我们已经理解了attention；今天我们按顺序来梳理一下整合之后的顺序。

随着Transformer模型的迅速普及，Self-Attention（自注意力机制）和Multi-Head Attention（多头注意力机制）成为了自然语言处理（NLP）领域中的核心组件。本文将从简要工作、工作流程、两者对比三个方面，解析这两种注意力。一、简要介绍使输入序列中的每个元素能够关注并加权整个序列中的其他元素，生成新的输出表示，不依赖外部信息或历史状态。Self-Attention允许输入序列中的每个元素都与序列中的其他所有元素进行交互。

在深度学习中，多头注意力（Multi-Head Attention）是一种注意力机制。它是对传统注意力机制的一种改进，旨在通过分割输入特征为多个“头部”（head）并独立处理每个头部来提高模型的表达能力和学习能力。

【Transformer】multi-head self-attention 多头自注意力机制

动画详解Transformer模型以及变

4

社区成员

94

社区内容

发帖

与我相关

我的任务

transformernlp 个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章