PyTorch——实现自注意力机制(self-attention)
文章目录1 原理简述1 原理简述 Self-Attention Layer 一次检查同一句子中的所有单词的注意力,这使得它成为一个简单的矩阵计算,并且能够在计算单元上并行计算。 此外,Self-Attention Layer 可以使用下面提到的 Multi-Head 架构来拓宽视野,也就是多头注意力机制。Self-Attention Layer 基本结构如下:对于每个输入 x\boldsymbol{x}x,首先经过 Embedding 层对每个输入进行编码得到 a1,a2,a3,a4\boldsy