为什么Transformer模型使用layer Norm，而不是使用batch Norm？

人工智能研究所 2023-01-13 03:43:29

课时名称	课时知识点
为什么Transformer模型使用layer Norm，而不是使用batch Norm？	介绍Transformer模型使用的layer Norm，数据归一化处理

...全文

56 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

动画详解Transformer模型以及变

4

社区成员

94

社区内容

发帖

与我相关

我的任务

transformernlp 个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章