人工智能研究所 2023-11-06 09:41:07
Swin Transformer是一种新型的Transformer模型,于2021年由微软亚洲研究院提出,其论文题为"等价变形器"(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)。Swin Transformer在计算机视觉领域取得了很好的效果,尤其在图像分类、目标检测等任务中,超越了现有的很多SOTA方法。 Swin Transformer是基于Transformer的架构,但是与传统的Transformer不同,它通过将输入的图像分解为多个子区域,然后对每个子区域应用Transformer,最后组合所有子区域的输出,从而建立了一种基于局部的Transformer架构。 具体来说,Swin Transformer将输入的图像分解为一系列子区域(即窗口),并在每个子区域中应用Transformer,这些子区域之间有重叠的部分,以便网络能够捕捉到更多的上下文信息。此外,Swin Transformer在每个分层中引入了向量位移操作,即shift window attention,从而可以更有效地利用不同分辨率的特征。在训练过程中,Swin Transformer使用随机采样策略对输入的图像进行变换和扩增,从而提高模型的泛化能力。 相较于传统的Transformer模型,Swin Transformer在训练过程中可以有效地利用多GPU,从而能够处理更大的图像尺寸。同时,Swin Transformer的计算复杂度也比传统的Transformer更低,因此在实际应用中更加实用。 总之,Swin Transformer是一种新型的基于局部的Transformer模型,它在计算机视觉领域取得了很好的效果,并且具有良好的可扩展性和计算效率。 从本期开始,我们就使用视频,图文,代码三个维度,开始学习Swin Transformer。#动图详解Transformer
...全文
332 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧