Y=Wx+b,这么简单的一个线性公式却是人工智能领域的核心。而在transformer模型中,此公式应用在FF前馈神经网络模块。
首先,我们来看一下论文中的feed-forward前馈神经网络的数学公式,其公式为FFN(x)=max(0,xW1+b1)W2+b2
其公式有三个部分组成,首先是xW1+b1,这个公式虽然看起来很简单,却是AI人工智能领域的核心,我们前期在分享手写数字识别的时候,分享过的一个公式y=Wx+b,其中W是权重,b为bias 偏差,跟这个公式完全一样,其中W1便是一个未知的参数,需要模型训练的矩阵,矩阵维度为[512,2048]。
第二部分是max(0,xW1+b1),一个线性函数与0 取最大值,这个就是神经网络模型标准的relu激活函数
最后,经过relu激活函数后,我们再进行一次线性变换,此时的数据矩阵乘以未知矩阵W2,其矩阵维度为[2048,512]
以上便是feed-forward前馈神经网络的公式,而此公式又是如何使用在transformer模型中的?#动图详解Transformer
...全文