Transformer模型第五个难理解的便是模型的输入部分。虽然模型的输入与输出部分并不是transformer的核心技术，但是在理解学习transformer模型时，总是离不开模型的输入输出部分，这是模型最基础的数据处理工作了。首先我们聊一下t-CSDN社区

人工智能研究所 2023-10-23 09:20:51

Transformer模型第五个难理解的便是模型的输入部分。虽然模型的输入与输出部分并不是transformer的核心技术，但是在理解学习transformer模型时，总是离不开模型的输入输出部分，这是模型最基础的数据处理工作了。首先我们聊一下transformwr模型的输入部分。其模型存在2个输入，一个是编码器的输入。一个是解码器的输入。我们依然按照机器翻译的例子来介绍这两个输入。针对编码器的输入便是我们的汉语单词，而针对解码器的输入便是英文版本的单词。第一个问题是为何解码器也需要有输入？这是因为在我们进行transformer模型训练时，我们需要告诉模型你预测出的单词到底是不是我需要的，以及预测出的单词与真实单词之间的差距有多大，然后让模型不停的进行训练迭代。直到模型输出正确的单词为止。当然，在我们进行模型预测时，是不会直接给解码器有输入信息的，而是让模型自己去预测，再根据自己预测出的单词来预测未来的信息。还有一个问题是我们为何需要进行word embedding的操作？首先我们需要明确一点，任何计算机模型都不会直接可以认识我们的单词或者图片信息，包括transformer模型。这就需要我们把单词或者图片信息转换到数据维度。然后就是数据的编码规则并不唯一，之所以大家用通用数据集，就是因为里面很多信息已经处理好了，比如图片标注，文字单词的序列，这些我们就不用再把数据集重新处理一遍了。当然你可以按照自己的意愿对数据集进行处理编码。最后一个问题是transformer模型的word embedding是不是一定要512维度？这个数字其它的也可以，只要保证是2的倍数。之所以考虑使用512维度，主要是考虑计算机的性能与数据维度的表示。太大，计算机计算过程就大大增加复杂度，太小，不足以能够完整的表示单词或者其它数据信息。如何进行数据的操作？#动图详解Transformer

...全文