535
社区成员
发帖
与我相关
我的任务
分享MMpretrain是一个全新升级的预训练开源算法框架,旨在提供各种强大的预训练主干网络,并支持不同的预训练策略。
新版的MMPretrain在主干模型有VGG,ResNet,DenseNet,自监督学习有MoCo v1/v2/v3 simCLR ,数据集支持有MINIST/CIFAR,ImageNet 1k\21k,COCO,ScienceQA,自定义数据集,训练技巧与策略包括优化器与学习率策略,数据增强策略。易用性包括大量预置配置文件、预训练模型。Python推理API,模型训练工具,模型参数工具等等。
支持开箱即用的推理API与模型,包含丰富的相关任务
-图像分类
-图像描述
-视觉问答
-视觉定位
-检索
深度学习模型的训练涉及几个方面
-模型结构 模型有几层,每层有多少通道数等
-数据 数据集划分、数据文件路径、皮大小、数据增强策略等
-训练优化 梯度下降算法、学习率参数、训练总轮次、学习率变化策略等
-运行时 GPU、分布式环境配置等
辅助功能 如打印日志、定时保存checkpoint等
经典主干网络:ALexNet VGG GoogLeNet
Transformer 及其注意力机制
CLIP 多模态在大规模数据集上使用NLP监督预训练图像分类器,证明了简单的预训练任务,即预测图像和文本描述是否匹配。