Swin transformer 模型开创性的使用了窗口注意力机制的概念。
我们知道VIT模型虽然把图片分割成一个一个的patch ,但是其模型是在整个图片上来做注意力机制,其计算复杂度依然很高。为了解决计算复杂度的问题,Swin transformer 模型提出了窗口注意力机制的概念。
在把图片分割成一个个patch后,模型把patch再分割成一个个的小窗口,每个小窗口中,自己计算注意力机制。虽然这样解决了计算复杂度的问题,但是图片毕竟是一个整体,窗口与窗口之间没有任何交互,肯定是不行的。
Swin transformer 在窗口注意力机制的基础上,又提出了移动窗口的概念,当计算完窗口注意力机制之后,需要把窗口进行移动,让窗口与窗口之间有重合的部分,这样再计算一遍注意力机制,就得到了窗口之间的关系。
从Swin transformer 模型的框架上可以看出,其模型的transformer 部分每次都是成对出现的,一个是窗口注意力机制,另外一个是移动窗口注意力机制。#动图详解Transformer
...全文