人工智能研究所 2024-01-22 07:24:04
Swin transformer 模型开创性的使用了窗口注意力机制的概念。 我们知道VIT模型虽然把图片分割成一个一个的patch ,但是其模型是在整个图片上来做注意力机制,其计算复杂度依然很高。为了解决计算复杂度的问题,Swin transformer 模型提出了窗口注意力机制的概念。 在把图片分割成一个个patch后,模型把patch再分割成一个个的小窗口,每个小窗口中,自己计算注意力机制。虽然这样解决了计算复杂度的问题,但是图片毕竟是一个整体,窗口与窗口之间没有任何交互,肯定是不行的。 Swin transformer 在窗口注意力机制的基础上,又提出了移动窗口的概念,当计算完窗口注意力机制之后,需要把窗口进行移动,让窗口与窗口之间有重合的部分,这样再计算一遍注意力机制,就得到了窗口之间的关系。 从Swin transformer 模型的框架上可以看出,其模型的transformer 部分每次都是成对出现的,一个是窗口注意力机制,另外一个是移动窗口注意力机制。#动图详解Transformer
...全文
166 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧