【YOLOv8改进】STA(Super Token Attention) 超级令牌注意力机制 (论文笔记+引入代码)

视觉Transformer在许多视觉任务上展示了卓越的性能。然而，它在浅层捕获局部特征时可能会面临高度冗余的问题。因此，使用了局部自注意力或早期阶段的卷积来减少这种冗余，但这牺牲了捕获长距离依赖的能力。一个挑战随之而来：在神经网络的早期阶段，我们是否能高效且有效地进行全局上下文建模？为解决这一问题，我们从超像素的设计中获得启示，这种设计通过减少图像基元的数量来简化后续处理，并在视觉Transformer中引入了超级令牌。