BiFormer: Vision Transformer with Bi-Level Routing Attention论文下载

weixin_39820780 2023-11-18 20:00:15

研究人员提出了一种名为BiFormer的新型视觉Transformer模型，它以动态稀疏注意力和双层路由为核心。传统的注意力机制在捕捉长距离依赖性方面表现出色，但也带来了巨大的计算和内存开销，因为需要在所有空间位置上计算令牌之间的配对交互。为了解决这个问题，之前的一些方法引入了手工设计的、与内容无关的稀疏性，如将注意力操作限制在局部窗口、轴向条纹或膨胀窗口内。与这些方法不同，该研究提出了一种全新的通过双层路由实现的动态稀疏注意力机制，以实现更灵活的计算分配并具备内容感知性。具体而言，对于一个查询（query），首先在粗糙的区域级别上过滤掉无关的键值对，然后对剩余的候选区域（即路由区域的并集）应用细粒度的令牌对令牌的注意力计算。该研究提供了一种简单而有效的实现方式，利用稀疏性来节省计算和内存，并且仅涉及适用于GPU的稠密矩阵乘法。基于提出的双层路由注意力机制，研究人员提出了一种名为BiFormer的新型通用视觉Transformer模型。由于BiFormer能够以查询自适应的方式关注一小部分相关令牌，而不受其他无关令牌的干扰，因此在性能和计算效率方面都表现出良好的特性，尤其在密集预测 , 相关下载链接：https://download.csdn.net/download/java1314777/88496483?utm_source=bbsseo

...全文