人工智能研究所 2023-12-11 07:57:37
Transformer模型中最重要的multi-head attention 多头注意力机制,是模型的核心,且模型最重要的贡献就是这个多头注意力机制了,其它的就是模型堆叠了。 相比我们的multi-head attention 多头注意力机制,那么我们前期分享的Attention注意力机制便是其中的一头了,为何需要multi-head attention 多头注意力机制,其实这跟我们对人,事,物评估一样,不同的人对同一个人,同一件事,会有不同的看法,若单单听信某一个人的意见,必然会产生偏差。若很多人来评价一件事情,综合多人的意见,必然距离真相是最近的。multi-head attention 多头注意力机制也是同样的道理,有多个矩阵来关注相同的输入矩阵,最后模型综合多个头的权重信息来获取最终的输出权重,这样得到的最终注意力必然是最有效的。 根据multi-head attention 多头注意力机制的计算公式,我们知道每一个头就是一个Attention注意力机制。其实就是把一个头的注意力机制拆分成多个头,利用多个头的注意力来综合考虑输入矩阵的各个维度的信息,更多详细介绍,参考transformer专栏#动图详解Transformer
...全文
110 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧