BiFormer: Vision Transformer with Bi-Level Routing Attention论文下载

weixin_39820780 2023-11-18 20:00:15
研究人员提出了一种名为BiFormer的新型视觉Transformer模型,它以动态稀疏注意力和双层路由为核心。传统的注意力机制在捕捉长距离依赖性方面表现出色,但也带来了巨大的计算和内存开销,因为需要在所有空间位置上计算令牌之间的配对交互。为了解决这个问题,之前的一些方法引入了手工设计的、与内容无关的稀疏性,如将注意力操作限制在局部窗口、轴向条纹或膨胀窗口内。与这些方法不同,该研究提出了一种全新的通过双层路由实现的动态稀疏注意力机制,以实现更灵活的计算分配并具备内容感知性。 具体而言,对于一个查询(query),首先在粗糙的区域级别上过滤掉无关的键值对,然后对剩余的候选区域(即路由区域的并集)应用细粒度的令牌对令牌的注意力计算。该研究提供了一种简单而有效的实现方式,利用稀疏性来节省计算和内存,并且仅涉及适用于GPU的稠密矩阵乘法。基于提出的双层路由注意力机制,研究人员提出了一种名为BiFormer的新型通用视觉Transformer模型。由于BiFormer能够以查询自适应的方式关注一小部分相关令牌,而不受其他无关令牌的干扰,因此在性能和计算效率方面都表现出良好的特性,尤其在密集预测 , 相关下载链接:https://download.csdn.net/download/java1314777/88496483?utm_source=bbsseo
...全文
3 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

12,444

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧