基于压缩视频分辨率变化的高效语义分割方法AR-Seg

码流怪侠
音视频领域优质创作者
博客专家认证
2025-01-19 22:20:45
...全文
73 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
资源下载链接为: https://pan.quark.cn/s/35705abf65fe AR-Seg 是一种用于压缩视频语义分割的交替分辨率网络框架,旨在通过对非关键帧采用低分辨率来削减计算成本,以此实现高效视频语义分割(VSS)。由于 VSS 需对高帧率视频逐帧预测,计算量极大,而过往提升计算效率的方法多聚焦于网络架构设计,忽视了输入分辨率这一影响计算成本的关键因素。 AR-Seg 框架包含 HR 和 LR 两个分支,HR 分支处理高分辨率关键帧,LR 分支负责低分辨率非关键帧,二者共享骨干网络结构但针对不同分辨率训练。在 LR 分支骨干网络最终卷积前,加入交叉分辨率特征融合(CReFF)模块,利用压缩视频中的运动矢量,将高分辨率关键帧特征融合到低分辨率非关键帧,实现更好空间对齐,并通过局部注意机制有选择地聚合融合特征,防止下采样导致的分割性能下降。同时,配合特征相似性训练(FST)策略,通过显式相似性损失和共享解码层的隐式约束,指导 CReFF 聚合特征的学习,帮助低分辨率分支从高分辨率分支学习可靠有效的特征 。 在 CamVid 和 Cityscapes 数据集上的实验显示,AR-Seg 能在保持高分割精度的同时,节省高达 67% 的计算成本,且与不同分割主干网络兼容。例如在 CamVid 数据集上,使用 PSPNet18 主干网络时,AR-Seg 节省大量计算成本的同时,仍维持较高分割精度 。 该技术在自动驾驶、监控等计算机视觉任务领域具有广阔应用前景,可助力提升相关视频分析任务的效率与准确性 。与之相关的运行视频,生动展示了 AR-Seg 技术在实际视频处理中的效果,包括对不同场景视频的关键帧与非关键帧处理过程,以及最终呈现的高精度语义分割结果,让观者直观感受其在降低计算成本同时保证分割质量的优势 。

255

社区成员

发帖
与我相关
我的任务
社区描述
音视频技术干货的分享聚集!
音视频学习 企业社区
社区管理员
  • ZEGO即构
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

这里是音视频开发者小伙伴的聚集大本营!大家可在此集中讨论RTC开发相关内容、工作中遇到的问题、资源求助等。即构期待与大家共同打造一个开放、包容的RTC构建交流社区~

试试用AI创作助手写篇文章吧