位置编码 - 领略位置编码神奇的风景 - 系列(1)
位置编码 - 领略位置编码神奇的风景 - 系列(1)前文自从attention在nlp流行之后,不管是在bert还是在transformer,都缺少不了位置编码的身影(position embedding)。主要原因是attention在计算的时候,不管是QK之间的点乘运算,还是attention scores与V之间的点乘运算在训练时都是并行计算的,从逻辑上来说,跟RNN不一样,attention处理时并没有先后之分。当一个句子中出现多个相同的token时,从语义上来说,同一个t