swin transformer模型的窗口是如何处理的?我们知道swin transformer模型处理的图片尺寸维度依然是[224,224],这里我们假设有一张[224,224]的图片。
而一张224*224大小尺寸的图片被4*4尺寸大小的patch进行分割,我们就得到了56*56个patch ,这里的56等于224除以4
而swin transformer模型规定了一个7*7的patch组成一个window窗口,这样56*56个patch就被重新分割成了8*8个window窗口,一共64个窗口
而swin transformer模型就是在64个window窗口中计算注意力,当计算完注意力机制后,为了窗口与窗口进行互动,swin还进行了shift window attention #动图详解Transformer
...全文