Transformer模型中最重要的multi-head attention 多头注意力机制,是模型的核心,且模型最重要的贡献就是这个多头注意力机制了,其它的就是模型堆叠了。
相比我们的multi-head attention 多头注意力机制,那么我们前期分享的Attention注意力机制便是其中的一头了,为何需要multi-head attention 多头注意力机制,其实这跟我们对人,事,物评估一样,不同的人对同一个人,同一件事,会有不同的看法,若单单听信某一个人的意见,必然会产生偏差。若很多人来评价一件事情,综合多人的意见,必然距离真相是最近的。multi-head attention 多头注意力机制也是同样的道理,有多个矩阵来关注相同的输入矩阵,最后模型综合多个头的权重信息来获取最终的输出权重,这样得到的最终注意力必然是最有效的。
根据multi-head attention 多头注意力机制的计算公式,我们知道每一个头就是一个Attention注意力机制。其实就是把一个头的注意力机制拆分成多个头,利用多个头的注意力来综合考虑输入矩阵的各个维度的信息,更多详细介绍,参考transformer专栏#动图详解Transformer
...全文