刚开始学习Transformer模型的注意力机制时。一直被QKV三个矩阵所困扰,什么query ,key ,value,还需要各种例子来解释其含义。
其实QKV三矩阵,并没有什么特殊的,只是在注意力机制公式中各表示了输入矩阵的线性表示,而注意力机制的公式就是三个矩阵的乘法,了解矩阵的乘法便知道,两个矩阵相乘,便是矩阵的相似性,也可以说一个矩阵在另外一个矩阵上的投影。
拿机器翻译的例子来讲,有了相似性矩阵,便就有了每个单词与其它单词的关联性数据,当我们翻译一个单词时。我们就知道那个单词是与之对应的单词,我们只需要在数据集中找到关联性最大值的单词即可。
而transformer模型中的注意力机制便是其这样的一个计算过程,我们的神经网络不停的训练QKV三个矩阵,让其loss最小,这样就找到了最优的注意力机制。在后面的神经网络预测时,可以采用训练好的注意力来预测需要翻译的单词了#动图详解Transformer
...全文