【第31篇】探索普通视觉Transformer Backbones用于物体检测

摘要我们探索了普通的、非分层的视觉转换器（ViT）作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调，而无需重新设计用于预训练的分层主干。通过对微调的最小调整，我们的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是，我们观察到：（i）从单尺度特征图（没有常见的 FPN 设计）构建一个简单的特征金字塔就足够了；（ii）使用窗口注意力（没有移位）就足够了跨窗口传播块。通过将普通 ViT 主干预训练为 Masked Autoencoders (MAE)，我们的检测器 ViTDet