Swin Transformer是一种新型的Transformer模型,于2021年由微软亚洲研究院提出,其论文题为"等价变形器"(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)。Swin Transformer在计算机视觉领域取得了很好的效果,尤其在图像分类、目标检测等任务中,超越了现有的很多SOTA方法。
Swin Transformer是基于Transformer的架构,但是与传统的Transformer不同,它通过将输入的图像分解为多个子区域,然后对每个子区域应用Transformer,最后组合所有子区域的输出,从而建立了一种基于局部的Transformer架构。
具体来说,Swin Transformer将输入的图像分解为一系列子区域(即窗口),并在每个子区域中应用Transformer,这些子区域之间有重叠的部分,以便网络能够捕捉到更多的上下文信息。此外,Swin Transformer在每个分层中引入了向量位移操作,即shift window attention,从而可以更有效地利用不同分辨率的特征。在训练过程中,Swin Transformer使用随机采样策略对输入的图像进行变换和扩增,从而提高模型的泛化能力。
相较于传统的Transformer模型,Swin Transformer在训练过程中可以有效地利用多GPU,从而能够处理更大的图像尺寸。同时,Swin Transformer的计算复杂度也比传统的Transformer更低,因此在实际应用中更加实用。
总之,Swin Transformer是一种新型的基于局部的Transformer模型,它在计算机视觉领域取得了很好的效果,并且具有良好的可扩展性和计算效率。
从本期开始,我们就使用视频,图文,代码三个维度,开始学习Swin Transformer。#动图详解Transformer
...全文