人工智能研究所 2023-12-04 07:17:24
Transformer模型最核心的算法便是注意力机制,但是我们发现其计算公式存在一个缩放系数,称之为缩放点积,为何需要缩放?这就要从注意力机制的问题说起 梯度消失问题:神经网络的权重与损失的梯度成比例地更新。问题是,在某些情况下,梯度会很小,有效地阻止了权重更新。这反过来又阻止了神经网络的训练。这通常被称为梯度消失问题。 Unnormalization softmax:考虑一个正态分布。分布的 softmax 值在很大程度上取决于它的标准差。由于标准偏差很大,softmax 只存在一个峰值,其他全部为0。这样就无法进行数据的前向传播与更新。 针对以上问题,我们可以随机生成一些数据来可视化一下,一个是没有缩放的数据,均值为0方差为100,一个是经过缩放的数据,均值为0,方差为1 可以看到其数据直方图是一样的,只是一个方差为100,一个为1,可以看到方差为100的softmax后,只有一个地方有数据,值为1.其它地方全部为0,这样的结果传递给前端模型后数据无法进行训练更新,而方差经过缩放后的softmax便打破了以上情况,使得模型可以进行前向传播 这也是为何transformer模型中其attention注意力机制的公式使用了一个缩放系数的原因吧#动图详解Transformer
...全文
110 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧