【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv ：利用共享权重和上下文感知权重增强局部感知，注意力机制与卷积的完美融合

视觉变换器（Vision Transformers，ViTs）已被证明在各种视觉任务中具有高效性。然而，将其缩小到移动设备友好的尺寸会导致性能显著下降。因此，开发轻量级视觉变换器成为了一个重要的研究方向。本文介绍了CloFormer，这是一种利用上下文感知局部增强的轻量级视觉变换器。CloFormer探讨了在传统卷积操作中常用的全局共享权重与在注意力机制中出现的特定于token的上下文感知权重之间的关系，并提出了一种高效且简单的模块来捕获高频局部信息。