人工智能研究所 2023-10-23 09:20:51
Transformer模型第五个难理解的便是模型的输入部分。 虽然模型的输入与输出部分并不是transformer的核心技术,但是在理解学习transformer模型时,总是离不开模型的输入输出部分,这是模型最基础的数据处理工作了。 首先我们聊一下transformwr模型的输入部分。其模型存在2个输入,一个是编码器的输入。一个是解码器的输入。我们依然按照机器翻译的例子来介绍这两个输入。 针对编码器的输入便是我们的汉语单词,而针对解码器的输入便是英文版本的单词。第一个问题是为何解码器也需要有输入? 这是因为在我们进行transformer模型训练时,我们需要告诉模型你预测出的单词到底是不是我需要的,以及预测出的单词与真实单词之间的差距有多大,然后让模型不停的进行训练迭代。直到模型输出正确的单词为止。当然,在我们进行模型预测时,是不会直接给解码器有输入信息的,而是让模型自己去预测,再根据自己预测出的单词来预测未来的信息。 还有一个问题是我们为何需要进行word embedding的操作?首先我们需要明确一点,任何计算机模型都不会直接可以认识我们的单词或者图片信息,包括transformer模型。这就需要我们把单词或者图片信息转换到数据维度。然后就是数据的编码规则并不唯一,之所以大家用通用数据集,就是因为里面很多信息已经处理好了,比如图片标注,文字单词的序列,这些我们就不用再把数据集重新处理一遍了。当然你可以按照自己的意愿对数据集进行处理编码。 最后一个问题是transformer模型的word embedding是不是一定要512维度?这个数字其它的也可以,只要保证是2的倍数。之所以考虑使用512维度,主要是考虑计算机的性能与数据维度的表示。太大,计算机计算过程就大大增加复杂度,太小,不足以能够完整的表示单词或者其它数据信息。如何进行数据的操作?#动图详解Transformer
...全文
62 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧