研究人员提出了一种名为BiFormer的新型视觉Transformer模型,它以动态稀疏注意力和双层路由为核心。传统的注意力机制在捕捉长距离依赖性方面表现出色,但也带来了巨大的计算和内存开销,因为需要在所有空间位置上计算令牌之间的配对交互。为了解决这个问题,之前的一些方法引入了手工设计的、与内容无关的稀疏性,如将注意力操作限制在局部窗口、轴向条纹或膨胀窗口内。与这些方法不同,该研究提出了一种全新的通过双层路由实现的动态稀疏注意力机制,以实现更灵活的计算分配并具备内容感知性。
具体而言,对于一个查询(query),首先在粗糙的区域级别上过滤掉无关的键值对,然后对剩余的候选区域(即路由区域的并集)应用细粒度的令牌对令牌的注意力计算。该研究提供了一种简单而有效的实现方式,利用稀疏性来节省计算和内存,并且仅涉及适用于GPU的稠密矩阵乘法。基于提出的双层路由注意力机制,研究人员提出了一种名为BiFormer的新型通用视觉Transformer模型。由于BiFormer能够以查询自适应的方式关注一小部分相关令牌,而不受其他无关令牌的干扰,因此在性能和计算效率方面都表现出良好的特性,尤其在密集预测
, 相关下载链接:
https://download.csdn.net/download/java1314777/88496483?utm_source=bbsseo