PyTorch——实现自注意力机制（self-attention）

文章目录1 原理简述1 原理简述 Self-Attention Layer 一次检查同一句子中的所有单词的注意力，这使得它成为一个简单的矩阵计算，并且能够在计算单元上并行计算。此外，Self-Attention Layer 可以使用下面提到的 Multi-Head 架构来拓宽视野，也就是多头注意力机制。Self-Attention Layer 基本结构如下：对于每个输入 x\boldsymbol{x}x，首先经过 Embedding 层对每个输入进行编码得到 a1,a2,a3,a4\boldsy