人工智能研究所 2023-11-11 19:26:40
刚开始学习Transformer模型的注意力机制时。一直被QKV三个矩阵所困扰,什么query ,key ,value,还需要各种例子来解释其含义。 其实QKV三矩阵,并没有什么特殊的,只是在注意力机制公式中各表示了输入矩阵的线性表示,而注意力机制的公式就是三个矩阵的乘法,了解矩阵的乘法便知道,两个矩阵相乘,便是矩阵的相似性,也可以说一个矩阵在另外一个矩阵上的投影。 拿机器翻译的例子来讲,有了相似性矩阵,便就有了每个单词与其它单词的关联性数据,当我们翻译一个单词时。我们就知道那个单词是与之对应的单词,我们只需要在数据集中找到关联性最大值的单词即可。 而transformer模型中的注意力机制便是其这样的一个计算过程,我们的神经网络不停的训练QKV三个矩阵,让其loss最小,这样就找到了最优的注意力机制。在后面的神经网络预测时,可以采用训练好的注意力来预测需要翻译的单词了#动图详解Transformer
...全文
193 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧