【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

多模态模型 CLIP 讲解，对应论文 Learning Transferable Visual Models From Natural Language Supervision。CLIP 的方法很简单，但效果却意外的好。CLIP 的迁移能力是非常强的，预训练好的模型能够在任意一个视觉分类的数据集上取得不错的效果，而且最重要的是它是 zero-shot 的，即完全没有在这些数据集上做训练就能得到这么高的性能。