AI实战营二期lec4-深度学习预训练与MMPretrain

dxzzz333 2023-06-06 23:15:37

mmpretrain算法库支持图像分类和多模态任务。model部分分为backbone(主干网络，feature extractor);necks(承接backbone和head,特征融合等)；head(任务相关的loss计算等)。

经典backbone有：resnet(残差结构解决精度由于网络深度带来的梯度消失问题，新增残差层拟合深层网络和浅层网络之间的差值 https://zhuanlan.zhihu.com/p/452867110)；vision transformer（vit,使用transformer encoder进行特征提取，使用multihead attention机制，进行多维信息提取）

自监督学习:看起来只需要正样本。对比学习（simCLR（数据增强））；基于掩码的学习（MAE（使用autoencoder机制））。融合算法：ibot等。

多模态算法：clip（使用encoder,，将文本信息辅助图像分类；zero-shot学习）。blip(图生文，结合三种loss)等。

...全文