Swin transformer 模型开创性的使用了窗口注意力机制的概念。我们知道VIT模型虽然把图片分割成一个一个的patch ，但是其模型是在整个图片上来做注意力机制，其计算复杂度依然很高。为了解决计算复杂度的问题，Swin transform-CSDN社区

人工智能研究所 2024-01-22 07:24:04

Swin transformer 模型开创性的使用了窗口注意力机制的概念。我们知道VIT模型虽然把图片分割成一个一个的patch ，但是其模型是在整个图片上来做注意力机制，其计算复杂度依然很高。为了解决计算复杂度的问题，Swin transformer 模型提出了窗口注意力机制的概念。在把图片分割成一个个patch后，模型把patch再分割成一个个的小窗口，每个小窗口中，自己计算注意力机制。虽然这样解决了计算复杂度的问题，但是图片毕竟是一个整体，窗口与窗口之间没有任何交互，肯定是不行的。 Swin transformer 在窗口注意力机制的基础上，又提出了移动窗口的概念，当计算完窗口注意力机制之后，需要把窗口进行移动，让窗口与窗口之间有重合的部分，这样再计算一遍注意力机制，就得到了窗口之间的关系。从Swin transformer 模型的框架上可以看出，其模型的transformer 部分每次都是成对出现的，一个是窗口注意力机制，另外一个是移动窗口注意力机制。#动图详解Transformer

...全文

193 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Transformer在视觉中的崛起：ViT、DETR与Swin Transformer，人工智能、大模型、AI深度学习在计算机视觉领域取得了令人瞩目的进展，从早期的卷积神经网络（CNN）主导，到近年来 Transformer 架构的异军突起，彻底改变了视觉任务的格局。Transformer 最初在自然语言处理（NLP）领域大放异彩，以其出色的捕捉长距离依赖关系的能力而闻名。随着研究的深入，研究者们开始探索将 Transformer 应用于视觉领域，这一尝试催生了一系列具有开创性的模型。

微软亚洲研究院出品，屠榜各大cv任务，代码于2021.04.12开源。Swin Transformer主要有两个创新点：1、图片切分多个patch，并在patch内部进行self-attention，从而降低计算量；2、构建层次化transformer模型，类似传统CNN的backbone，因此可以无缝衔接到各类框架中。

注意力机制被广泛认为是Vision Transformer(ViT)成功的关键，因为它提供了一种灵活和强大的方法来建模空间关系。然而，注意力机制真的是ViT不可或缺的组成部分吗？它能被一些其他的替代品所取代吗？为了揭开注意力机制的作用，作者将其简化为一个非常简单的情况：ZERO FLOP和ZERO parameter。具体地说，作者重新审视了Shift操作。它不包含任何参数或算术计算。唯一的操作是在相邻的特征之间交换一小部分通道。基于这个简单的操作，作者构建了一个新的Backbone，即ShiftViT，

本文提出了一种新的视觉转换器Swin Transformer，它可以作为计算机视觉的通用主干。将 Transformer 从语言适应视觉的挑战源于两个域之间的差异，例如视觉实体的规模变化很大，以及与文本中的单词相比，图像中像素的高分辨率。为了解决这些差异，我们提出了一个分层 Transformer，其表示是使用 Shifted 窗口计算的。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口上，同时允许跨窗口连接，从而带来了更高的效率。

详解Swin Transformer结构及代码

动画详解Transformer模型以及变

4

社区成员

94

社区内容

发帖

与我相关

我的任务

transformernlp 个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章