219
社区成员
发帖
与我相关
我的任务
分享
#Vision Transformer#等视觉模型的强大性能,是来自于#Transformer# 架构,还是patch?研究者提出了简单 ConvMixer 模型进行证明,直接将 patch 作为输入,实验表明,ConvMixer 性能优于 ResNet 等经典视觉模型,并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。论文:https://openreview.net/pdf?id=TVHS5Y4dNvM;代码:https://github.com/tmp-iclr/convmixer