【第31篇】探索普通视觉Transformer Backbones用于物体检测
摘要我们探索了普通的、非分层的视觉转换器(ViT)作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调,而无需重新设计用于预训练的分层主干。通过对微调的最小调整,我们的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是,我们观察到:(i)从单尺度特征图(没有常见的 FPN 设计)构建一个简单的特征金字塔就足够了;(ii)使用窗口注意力(没有移位)就足够了跨窗口传播块。通过将普通 ViT 主干预训练为 Masked Autoencoders (MAE),我们的检测器 ViTDet