BiFormer: Vision Transformer with Bi-Level Routing Attention论文下载

weixin_39820780 2023-11-18 20:00:15
研究人员提出了一种名为BiFormer的新型视觉Transformer模型,它以动态稀疏注意力和双层路由为核心。传统的注意力机制在捕捉长距离依赖性方面表现出色,但也带来了巨大的计算和内存开销,因为需要在所有空间位置上计算令牌之间的配对交互。为了解决这个问题,之前的一些方法引入了手工设计的、与内容无关的稀疏性,如将注意力操作限制在局部窗口、轴向条纹或膨胀窗口内。与这些方法不同,该研究提出了一种全新的通过双层路由实现的动态稀疏注意力机制,以实现更灵活的计算分配并具备内容感知性。 具体而言,对于一个查询(query),首先在粗糙的区域级别上过滤掉无关的键值对,然后对剩余的候选区域(即路由区域的并集)应用细粒度的令牌对令牌的注意力计算。该研究提供了一种简单而有效的实现方式,利用稀疏性来节省计算和内存,并且仅涉及适用于GPU的稠密矩阵乘法。基于提出的双层路由注意力机制,研究人员提出了一种名为BiFormer的新型通用视觉Transformer模型。由于BiFormer能够以查询自适应的方式关注一小部分相关令牌,而不受其他无关令牌的干扰,因此在性能和计算效率方面都表现出良好的特性,尤其在密集预测 , 相关下载链接:https://download.csdn.net/download/java1314777/88496483?utm_source=bbsseo
...全文
21 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
Transformer在许多NLP(自然语言处理)任务中取得了最先进的成果。 ViT (Vision Transformer)是Transformer应用于CV(计算机视觉)领域里程碑式的工作,后面发展出更多的变体,如Swin Transformer。 ViT (Vision Transformer)模型发表于论文An Image is Worth 16X16 Words: Transformer For Image Recognition At Scale,使用纯Transformer进行图像分类。ViT在JFT-300M数据集上预训练后,可超过卷积神经网络ResNet的性能,并且所用的训练计算资源可更少。 本课程对ViT的原理与PyTorch实现代码进行精讲,来帮助大家掌握其详细原理和具体实现。其中代码实现包含两种代码实现方式,一种是采用timm库,另一种是采用einops/einsum。  原理精讲部分包括:Transformer的架构概述、Transformer的Encoder 、Transformer的Decoder、ViT架构概述、ViT模型详解、ViT性能及分析。  代码精讲部分使用Jupyter Notebook对ViT的PyTorch代码进行逐行解读,包括:安装PyTorch、ViT的timm库实现代码解读、 einops/einsum 、ViT的einops/einsum实现代码解读。相关课程: 《Transformer原理与代码精讲(PyTorch)》https://edu.csdn.net/course/detail/36697《Transformer原理与代码精讲(TensorFlow)》https://edu.csdn.net/course/detail/36699《ViT(Vision Transformer)原理与代码精讲》https://edu.csdn.net/course/detail/36719《DETR原理与代码精讲》https://edu.csdn.net/course/detail/36768《Swin Transformer实战目标检测:训练自己的数据集》https://edu.csdn.net/course/detail/36585《Swin Transformer实战实例分割:训练自己的数据集》https://edu.csdn.net/course/detail/36586 《Swin Transformer原理与代码精讲》 https://download.csdn.net/course/detail/37045 

13,103

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧