人工智能研究所 2023-12-15 07:45:57
Y=Wx+b,这么简单的一个线性公式却是人工智能领域的核心。而在transformer模型中,此公式应用在FF前馈神经网络模块。 首先,我们来看一下论文中的feed-forward前馈神经网络的数学公式,其公式为FFN(x)=max(0,xW1+b1)W2+b2 其公式有三个部分组成,首先是xW1+b1,这个公式虽然看起来很简单,却是AI人工智能领域的核心,我们前期在分享手写数字识别的时候,分享过的一个公式y=Wx+b,其中W是权重,b为bias 偏差,跟这个公式完全一样,其中W1便是一个未知的参数,需要模型训练的矩阵,矩阵维度为[512,2048]。 第二部分是max(0,xW1+b1),一个线性函数与0 取最大值,这个就是神经网络模型标准的relu激活函数 最后,经过relu激活函数后,我们再进行一次线性变换,此时的数据矩阵乘以未知矩阵W2,其矩阵维度为[2048,512] 以上便是feed-forward前馈神经网络的公式,而此公式又是如何使用在transformer模型中的?#动图详解Transformer
...全文
103 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧