535
社区成员
发帖
与我相关
我的任务
分享mmpretrain算法库支持图像分类和多模态任务。model部分分为backbone(主干网络,feature extractor);necks(承接backbone和head,特征融合等);head(任务相关的loss计算等)。
经典backbone有:resnet(残差结构解决精度由于网络深度带来的梯度消失问题,新增残差层拟合深层网络和浅层网络之间的差值 https://zhuanlan.zhihu.com/p/452867110);vision transformer(vit,使用transformer encoder进行特征提取,使用multihead attention机制,进行多维信息提取)
自监督学习:看起来只需要正样本。对比学习(simCLR(数据增强));基于掩码的学习(MAE(使用autoencoder机制))。融合算法:ibot等。
多模态算法:clip(使用encoder,,将文本信息辅助图像分类;zero-shot学习)。blip(图生文,结合三种loss)等。