社区
动画详解Transformer模型以及变
动画详解Transformer模型以及变形模型
帖子详情
为什么Transformer模型使用layer Norm,而不是使用batch Norm?
人工智能研究所
2023-01-13 03:43:29
课时名称
课时知识点
为什么Transformer模型使用layer Norm,而不是使用batch Norm?
介绍Transformer模型使用的layer Norm,数据归一化处理
...全文
49
回复
打赏
收藏
为什么Transformer模型使用layer Norm,而不是使用batch Norm?
课时名称课时知识点为什么Transformer模型使用layer Norm,而不是使用batch Norm?介绍Transformer模型使用的layer Norm,数据归一化处理
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
为什么
Transf
orm
er
使用
Lay
er
N
orm
而不是
Batch
N
orm
?
在深度学习的
Transf
orm
er
架构中,有一个有趣的细节是它
使用
了
Lay
er
N
orm
alization()而非
Batch
N
orm
alization(这两种归一化方法在不同的神经网络架构中都发挥着重要的作用,但为什么
Transf
orm
er
选择了
Lay
er
N
orm
呢?让我们来一探究竟。
大
模型
面试题-为什么
transf
orm
er
块
使用
Lay
er
N
orm
而不是
Batch
N
orm
这意味着,不仅自变量 X 的分布要相同,协变量的分布也应该相同。但是,如果训练数据和测试数据的协变量分布不同,就会出现协变量偏移。所以,协变量偏移强调的是除了主要自变量 X 以外的其他影响因素(即协变量)的分布变化。它提醒我们,在训练和应用机器学习
模型
时,不能只关注主要自变量,还需要考虑其他相关因素的分布是否一致。NLP任务中经常需要对单个样本做推理,而
Batch
N
orm
在推理阶段
使用
的是训练集的均值和方差,和单个样本的分布可能有偏差。的影响,但是除了 X 以外,还有其他变量也会影响 Y。
10分钟搞清楚为什么
Transf
orm
er
中
使用
Lay
er
N
orm
而不是
Batch
N
orm
N
orm
alization技术旨在应对内部协变量偏移问题,它的核心在于将数据调整到一个统一的标准,以便进行有效的比较和处理。为了实现这一目标,***我们需要确保参与归一化的数据点在本质上是可比的。***(记住这句话就可以了)
为什么
Transf
orm
er
一般
使用
Lay
er
N
orm
?
点击下方卡片,关注“CV
er
”公众号AI/CV重磅干货,第一时间送达要知道近年来特别出现了很多
Transf
orm
er
面试题(毕竟当前AI顶流)。这里Amusi特别分享15道
Transf
orm
er
高频面试题(求职群里有数百道
Transf
orm
er
题目,还有答案),希望对你有所帮助。介绍
Transf
orm
er
和ViT介绍
Transf
orm
er
的QKV介绍
Lay
er
N
orm
alizationTrans...
动画详解Transformer模型以及变
4
社区成员
94
社区内容
发帖
与我相关
我的任务
动画详解Transformer模型以及变
头条 人工智能研究所 ,计算机视觉,NLP
复制链接
扫一扫
分享
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformer
nlp
个人社区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章