DINOv2:在没有监督的情况下学习鲁棒的视觉特征
社区首页 (3643)
请编写您的帖子内容
社区频道(7)
显示侧栏
卡片版式
全部
AI技术交流
主干网络
物体检测
行人跟踪
博文收录
Ada助手
最新发布
最新回复
标题
阅读量
内容评分
精选

308
5.0
回复
DINOv2:在没有监督的情况下学习鲁棒的视觉特征
https://blog.csdn.net/m0_47867638/article/details/130327607?spm=1001.2014.3001.5502
复制链接 扫一扫
分享

357
1.0
回复
SMILEtrack:基于相似度学习的多目标跟踪
MOT是计算机视觉领域的一个研究热点,在视频理解中起着至关重要的作用。MOT的目标是估计每个目标的轨迹,并尝试将它们与视频序列中的每一帧关联起来。随着MOT的成功,它可以在社会上普遍使用,如车辆计算、计算机交互[25][12]、智能视频分析、自动驾驶等。基于TBD (Tracking-By-Detection)范式的多目标跟踪策略[1]、[27]、[26]是近年来主流且高效的多目标跟踪策略。根据检测结果进行跟踪,将问题分解为检测和关联两个步骤。
复制链接 扫一扫
分享

377
1.0
回复
PoolFormer实战:使用PoolFormer实现图像分类任务(二)
训练的主要步骤:1、使用AverageMeter保存自定义变量,包括loss,ACC1,ACC5。2、判断迭代的数据是否是奇数,由于mixup_fn只能接受偶数,所以如果不是偶数则要减去一位,让其变成偶数。但是有可能最后一次迭代只有一条数据,减去后就变成了0,所以还要判断不能小于2,如果小于2则直接中断本次循环。3、将数据输入mixup_fn生成mixup数据,然后输入model计算loss。4、 optimizer.zero_grad() 梯度清零,把loss关于weight的导数变成0。
复制链接 扫一扫
分享

359
1.0
回复
SYSU-30k数据集,全球最大的ReID数据集
中山大学发布了一个大型行人重识别数据集也诞生了,即 SYSU-30k。SYSU-30k 数据集包含 30,000 个行人身份类别,约是 CUHK03 和 Market-1501 的 20 倍。如果一个行人身份类别相当于一个物体类别的话,则 SYSU-30k 相当于 ImageNet 的 30 倍。该数据集总共包含 29,606,918 张图像。与现有的Re-ID数据集进行对比。
复制链接 扫一扫
分享

349
1.0
回复
跟踪数据集汇总
DanceTrack 是一个大规模的多对象跟踪数据集。用于在遮挡、频繁交叉、同样服装和多样化身体姿态条件下对人进行跟踪。强调运动分析在多对象跟踪中的重要性。GitHub地址:https://github.com/DanceTrack/DanceTrack数据集下载地址:https://pan.baidu.com/s/19O3IvYNzzrcLqlODHKYUwA提取码:awew。
复制链接 扫一扫
分享

363
1.0
回复
第四篇 AlexNet——网络实战
在前面的文章我介绍了AlexNet的网络结构和数据集的制作,这篇文章我将和大家一起完成AlexNet模型的实战。数据集选用上篇制作的数据集,模型用Pytorh自带的AlexNet。在这篇文章中,我尽量的简化代码,只保留最基本的逻辑,让每一个初学者能够看明白。通过这篇文章你能学到:1、如何训练模型?2、如何推理?3、如何读取数据集、处理数据集?4、如何使用余弦退火调整学习率?5、如何保存权重文件和整个模型文件?
复制链接 扫一扫
分享

第五篇 VGGNet——论文翻译
摘要。
...全文
345
1.0
回复
第五篇 VGGNet——论文翻译
摘要。
复制链接 扫一扫
分享

第三篇 制作数据集
如果有不对的地方,还请大家指出!
...全文
370
1.0
回复
第三篇 制作数据集
如果有不对的地方,还请大家指出!
复制链接 扫一扫
分享

339
评分
回复
【第64篇】ConvNeXt V2论文翻译:ConvNeXt V2与MAE激情碰撞
论文链接:ConvNeXt V2在改进的架构和更好的表示学习框架的推动下,视觉识别领域在21世纪20年代初实现了快速现代化和性能提升。例如,以ConvNeXt[52]为代表的现代ConvNets在各种场景中都表现出了强大的性能。虽然这些模型最初是为使用ImageNet标签的监督学习而设计的,但它们也可能受益于自监督学习技术,如蒙面自编码器(MAE)[31]。然而,我们发现,简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化(GRN)层,可以添加到Co
复制链接 扫一扫
分享

383
1.0
回复
计算两个向量的余弦相似度
余弦相似度是判断两个向量相似度常用的算法,我在做行人重识别的时候,用到了余弦相似度的算法,记录一下。
复制链接 扫一扫
分享

346
评分
回复
【第62篇】Inception-v4
论文链接:Inception-v4近年来,非常深度的卷积网络一直是图像识别性能最大进步的核心。一个例子是Inception架构,它已经被证明以相对较低的计算成本实现了非常好的性能。最近,残差连接与更传统的架构相结合,在2015年的ILSVRC挑战赛中产生了最先进的性能;其性能类似于最新一代Inception-v3网络。这就提出了一个问题,即将Inception架构与残差连接相结合是否有任何好处。本文给出了明确的经验证据,用残差连接进行训练,可以显著加快Inception网络的训练。还有一些证据表明,残差In
复制链接 扫一扫
分享

364
评分
回复
PoolFormer实战:使用PoolFormer实现图像分类任务(一)
论文:https://arxiv.org/abs/2111.11418论文翻译:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128281326官方源码:https://github.com/sail-sg/poolformer模型代码解析:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/128475827。
复制链接 扫一扫
分享

368
1.0
回复
全网首篇深度剖析PoolFormer模型,带你揭开MetaFormer的神秘面纱
这篇文章详细的介绍了PoolFormer模型,我是结合论文和官方的代码理解的,如果有不对的地方,欢迎大家指出来。
复制链接 扫一扫
分享

344
评分
回复
知识蒸馏DEiT算法实战:使用RegNet蒸馏DEiT模型
论文翻译:DEiT通过引入一个蒸馏token实现蒸馏,蒸馏的方式有两种:这篇文章就是从第二点入手,使用卷积神经网络蒸馏DEiT。讲解视频:https://www.zhihu.com/zvideo/1588881049425276928先把结论说了吧! Teacher网络使用RegNet的regnetx_160网络,Student网络使用DEiT的deit_tiny_distilled_patch16_224模型。如下表data:数据集,分为train和val。models:存放模型文件。losse
复制链接 扫一扫
分享

355
评分
回复
RegNet:设计网络设计空间
本文提出一种新的网络设计范式。我们的目标是帮助提高对网络设计的理解,并发现跨环境通用的设计原则。本文设计了参数化网络种群的网络设计空间,而不是专注于设计单个网络实例。整个过程类似于经典的手工网络设计,但上升到了设计空间的层面。使用所提出的方法,探索了网络设计的结构方面,并得到了一个由简单、规则的网络组成的低维设计空间,称为RegNet。RegNet参数化的核心观点非常简单:好的网络的宽度和深度可以用量化线性函数来解释。本文分析了RegNet设计空间,并得出了与当前网络设计实践不匹配的有趣发现。
复制链接 扫一扫
分享

321
评分
回复
DEiT实战:使用DEiT实现图像分类任务(二)
训练的主要步骤:1、使用AverageMeter保存自定义变量,包括loss,ACC1,ACC5。2、判断迭代的数据是否是奇数,由于mixup_fn只能接受偶数,所以如果不是偶数则要减去一位,让其变成偶数。但是有可能最后一次迭代只有一条数据,减去后就变成了0,所以还要判断不能小于2,如果小于2则直接中断本次循环。3、将数据输入mixup_fn生成mixup数据,然后输入model计算loss。4、 optimizer.zero_grad() 梯度清零,把loss关于weight的导数变成0。
复制链接 扫一扫
分享
为您搜索到以下结果:

