开放词汇遥感图像分割:OVRSISBenchV2基准与Pi-Seg轻量模型实践

开放词汇分割遥感图像分割视觉-语言模型
于 2026-05-31 03:00:36 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述:从封闭世界到开放世界的遥感解译

在遥感图像分析领域,我们这些从业者长久以来的一个核心梦想,就是让机器能像人一样,看一眼卫星或无人机拍下的照片,就能自动、准确地指出“这里是一片建筑群”、“那里是条河流”,甚至能识别出“这片区域发生了洪涝灾害”。这就是语义分割技术的目标——为图像中的每一个像素打上语义标签。过去十年,基于深度学习的全监督方法,比如大家熟熟的U-Net、DeepLab系列,已经在这个任务上取得了巨大成功。但干过实际项目的人都知道,这类方法有个“死穴”:它们只能在训练时见过的类别上工作。模型训练时学了“建筑”、“道路”、“水体”,那它这辈子就只会认这三样。一旦遇到训练集里没有的类别,比如“损毁建筑”、“临时安置点”,模型就彻底“瞎”了。

这种封闭集的限制,在真实的地理空间应用中几乎是致命的。灾害应急响应时,我们可能需要快速识别出洪水淹没区、滑坡体或倒塌的房屋;环境监测中,我们可能需要发现新出现的违章建筑或非法排污口。这些“未知类别”不可能被预先穷举。因此,开放词汇分割 应运而生。它的核心思想是借助视觉-语言模型,例如CLIP,将图像特征与任意文本描述(如“一片被洪水淹没的农田”)在同一个语义空间中对齐。这样一来,模型不再依赖固定的类别列表,而是通过理解文本提示,去分割图像中对应的区域。将OVS范式应用到遥感图像,就是开放词汇遥感图像分割

听起来很美好,对吧?但理想很丰满,现实很骨感。当我真正尝试将自然图像领域的OVS模型(比如MaskCLIP、CAT-Seg)直接套用到遥感数据上时,结果往往惨不忍睹。问题出在哪?我总结下来主要有三点:

  1. 视角与几何特性的根本差异:自然图像(如手机拍的照片)是平视视角,物体受重力约束,通常有明确的“上下”方向(比如树是竖着的,人是站着的)。而遥感图像是俯视视角,物体没有固定的朝向,一个正方形的建筑从正上方看就是个矩形,旋转45度看还是个矩形。CLIP等模型在自然图像上预训练时,并没有显式地学习这种旋转不变性,导致它在识别旋转、尺度各异的遥感地物时,特征匹配经常出错。
  2. 数据集的碎片化与偏见:遥感领域的数据集五花八门,iSAID、Potsdam、LoveDA……各有各的标注规范、类别体系和场景侧重。大部分研究都在某个单一或有限的数据集上“刷榜”,导致模型严重过拟合到特定数据分布,缺乏场景多样性类别平衡性。你用城市数据集训的模型,拿去分割森林或水域,性能可能断崖式下跌。
  3. 评估基准的缺失:一个健康的领域需要一个公认的“考场”来公平地衡量不同模型的优劣。自然图像有COCO、ADE20K这样的大规模基准。而OVRSIS领域之前缺乏一个统一的、大规模的、能反映真实应用需求的评估基准。没有好的“考题”,就难以推动“学生”(模型)的实质性进步。

正是为了解决这些痛点,我们团队在之前的工作中提出了OVRSISBenchV1,首次为这个新兴领域建立了一个跨数据集的标准化评估协议。但V1版本训练数据单一(仅使用DLRSD或iSAID),场景覆盖有限,更像是一个揭示“域鸿沟”存在的诊断工具,还不足以评估模型在真实、复杂、开放世界中的泛化能力。

因此,本文介绍的工作是一次全面的升级:我们推出了OVRSISBenchV2,一个大规模、面向应用的基准平台,以及一个轻量高效的基线模型Pi-Seg。我们的目标很简单:为社区提供一个更强大的训练基础(OVRSIS95K数据集)、一个更贴近现实的评估考场(涵盖10个下游数据集和3个实际任务),以及一个证明这个基准价值且性能强劲的起点模型(Pi-Seg)。无论你是刚接触OVRSIS的研究者,还是希望将开放词汇能力落地到实际项目的工程师,希望接下来的内容能为你提供清晰的路径和实用的参考。

2. OVRSISBenchV2:构建贴近现实的“压力测试”场

一个好的基准,应该像一面镜子,既能清晰反映当前技术的水平,也能指明未来的挑战。OVRSISBenchV1让我们看到了问题,而V2的目标是构建一个能模拟真实世界复杂性的“压力测试”场。这不仅仅是数据量的堆砌,更是从协议设计到任务定义的全面革新。

2.1 基石:大规模平衡数据集OVRSIS95K的构建

以往模型泛化能力差,一个核心原因是“营养不良”——训练数据太单一。为此,我们从头构建了OVRSIS95K数据集,包含约9.5万张图像-掩码对,覆盖城镇、工业区、森林、水岸、荒地这五大代表性遥感场景,共计35个常见语义类别。

注意:类别选择并非随意。我们基于对大量公开遥感数据集的统计分析,筛选出出现频率高、语义明确、且在多个应用中重要的类别,如building(建筑)、road(道路)、water(水体)、vegetation(植被)、vehicle(车辆)、ship(船舶)等。同时,我们刻意平衡了各个类别在不同场景中的样本数量,避免出现“道路”样本极多而“船舶”样本极少的情况,这种类别不平衡是导致模型偏向多数类的元凶。

手动标注9.5万张高分辨率遥感图像是天文数字的工作量。我们设计了一个可扩展的半自动化标注流水线,如图2所示,它分为两个阶段:

  1. 类别生成阶段:给定一张输入图像,我们首先使用强大的视觉-语言描述模型(如BLIP-2)为整张图像生成一段详细的英文场景描述,例如:“This aerial image shows a suburban area with dense residential buildings, interconnected roads, parked vehicles, and patches of green vegetation.” 接着,通过语法解析脚本,从描述中提取出所有名词短语作为候选类别,如 residential buildings, roads, vehicles, green vegetation。最后,将这些候选类别与我们预先定义好的35类标准化分类体系进行匹配和过滤,得到该图像最终需要标注的语义类别列表。
  2. 掩码生成阶段:有了类别列表,我们利用基于提示的分割基础模型(如SAM),通过点提示或框提示的方式,为每个类别生成实例级别的掩码。然后,通过后处理(如掩码合并、边界修正、小面积过滤)和人工核验,将实例掩码聚合为最终的像素级语义标注图。

这套流程的关键在于效率与质量的平衡。自动化部分解决了“量”的问题,而人工核验则保证了“质”。我们对随机抽样的2万张图像进行了质量审计,结果显示:97.25%的自动生成类别可直接接受,91.66%的掩码无需修正。主要的错误来源于复杂背景下的视觉混淆(如将“水泥地面”误认为“水体”)和过度分割。这些错误通过人工审核环节被有效纠正,最终数据集的错误率(误报率)被控制在0.53%以下,为模型训练提供了可靠的基础。

2.2 架构:从单一协议到多维评估体系

有了强大的训练基础,我们以此为核心,构建了OVRSISBenchV2评估基准。如图4所示,它与V1有着本质区别:

  • 训练集:统一使用大规模、多场景的OVRSIS95K。这迫使模型必须学习更具泛化性的特征,而不是记住某个特定数据集的“捷径”。
  • 测试集:我们整合了10个下游遥感数据集,包括DLRSD、iSAID、Potsdam、Vaihingen、UAVid、LoveDA、VDD、UDD5、OpenEarthMap、FLAIR等。这些数据集涵盖了从卫星到无人机、从厘米级到米级的不同空间分辨率、不同传感器、不同地域和不同光照条件,总图像数超过17万,语义类别达128个。这种异构性极大地增加了评估的难度和真实性。
  • 评估协议:我们采用严格的开放词汇协议。即,模型在OVRSIS95K的35个类别上训练,但在下游测试集上评估时,其类别列表是测试集自身的全部类别。这意味着测试集中必然包含大量模型在训练时从未见过的“未见类别”。例如,训练集有building,但测试集可能有damaged building(损毁建筑);训练集有road,测试集可能有flooded road(淹没道路)。模型必须依靠其对齐视觉与文本语义的能力,来推理这些新概念。

2.3 深化:面向真实地理空间应用的任务扩展

仅仅评估标准分割精度还不够。为了真正反映模型的实用价值,OVRSISBenchV2首创性地引入了下游任务导向的评估协议,具体包括:

  1. 建筑物提取:从WHU Aerial、Inria Aerial等数据集中构建测试集。这不仅考验模型识别“建筑”这一类别的能力,更考验其在密集城区、复杂背景下精确勾勒建筑物边界的能力,这对城市规划、人口估算至关重要。
  2. 道路提取:从DeepGlobe、Massachusetts Roads等数据集中构建测试集。道路通常呈现细长、网络状结构,且易被树木、车辆遮挡。此任务评估模型对线性地物和上下文关系的理解。
  3. 洪涝检测:从FloodNet、xBD等灾害数据集中构建测试集。这是典型的开放世界应急场景。训练集中可能只有正常的water(水体)和building,但测试时需要模型能根据“flooded area”(淹没区)、“collapsed building”(倒塌建筑)等文本提示,识别出灾害后的特殊状态。这直接检验了模型在紧急情况下的零样本泛化和推理能力。

通过将这三大实际应用任务纳入基准,OVRSISBenchV2将评估从单纯的学术指标,延伸到了解决真实世界问题的能力层面。图5的类别重叠分析也显示,下游测试集与训练集OVRSIS95K之间保持着“既不完全重叠,也不完全割裂”的合理关系。例如,FLAIR数据集有19个原始类别,经清洗后与OVRSIS95K重叠12个,另有7个是测试独有的未见类别,覆盖率约为63%。这种设置确保了跨数据集迁移评估既有挑战性(存在大量未见类),又有意义性(存在足够共享类以稳定评估)。

3. Pi-Seg:一种轻量且鲁棒的开放词汇迁移基线

有了一个更具挑战性的基准,我们还需要一个强有力的基线模型来验证其有效性,并为后续研究树立一个比较的标杆。我们之前的RSKT-Seg模型通过引入多个外部编码器(如遥感专用的CLIP、DINO)来注入遥感先验知识,虽然有效,但带来了显著的计算和内存开销。这次,我们换了一个思路,提出了Pi-Seg

Pi-Seg的核心思想非常直观:与其引入复杂的额外模块来“教”模型遥感特性,不如在训练过程中主动“拓宽”模型已经学到的视觉-语言特征空间,使其本身就具备更好的泛化能力。 我们借鉴了对抗训练和特征扰动的思想,但关键创新在于,我们的扰动是语义引导可学习的。

3.1 整体框架:四阶段流水线

如图7所示,Pi-Seg的流程清晰简洁:

  1. 特征提取:使用冻结的CLIP图像编码器和文本编码器,分别提取输入图像的密集视觉特征图 $V \in \mathbb{R}^{H' \times W' \times C}$ 和类别文本提示的嵌入向量 $T \in \mathbb{R}^{N \times C}$。这里保持编码器冻结,是为了保留CLIP在亿级图文对上学到的强大语义先验。
  2. 特征扰动:这是Pi-Seg的核心。我们设计了两个轻量级的扰动模块:
    • 文本语义扰动模块:作用于文本嵌入 $T$。它不是为了改变语义,而是为每个类别的文本原型生成一个扰动空间。想象一下,在特征空间里,“建筑”这个概念不是一个固定的点,而是一个小范围的概率分布。TSM模块通过可学习的参数,为每个文本嵌入添加一个小的、语义相关的随机偏移,让模型在训练时看到“建筑”概念的多种可能变体,而不是一个僵化的模板。
    • 图像语义扰动模块:作用于视觉特征图 $V$。同理,ISM模块对每个空间位置的视觉特征施加扰动,模拟遥感图像中由于视角、光照、季节变化导致的外观变化。关键是,这种扰动是空间自适应的,即不同区域、不同语义内容的扰动强度可以不同。
  3. 成本体积构建与聚合:将扰动后的视觉特征与文本特征进行逐像素的余弦相似度计算,得到一个初始的“成本体积” $C \in \mathbb{R}^{H' \times W' \times N}$,它反映了每个像素属于各个类别的原始置信度。这个初始匹配通常是嘈杂的。接着,我们使用一个轻量的成本聚合模块(通常是一个小型CNN或Transformer层)对 $C$ 进行空间和类别维度上的上下文聚合,平滑噪声,强化一致区域,输出 refined 后的成本图 $\tilde{C}$。
  4. 解码与预测:最后,将聚合后的成本图 $\tilde{C}$ 通过一个简单的解码器(通常是几个卷积层)上采样到原图分辨率,并输出每个像素的最终分割logits。

整个框架如图6(b)所示,相比RSKT-Seg(图6a)省去了冗余的外部编码器,更加轻量高效。

3.2 扰动模块的设计原理与实现细节

为什么简单的扰动能提升开放词汇泛化能力?这源于对过拟合问题的深刻认识。在有限数据上训练时,模型容易将每个训练类别记忆为特征空间中的一个狭窄、尖锐的峰值。当遇到未见类别时,其特征可能落在这些峰值之间的“空白地带”,导致匹配失败。

文本语义扰动模块 通过以下方式运作: $$ T' = T + \Delta T, \quad \Delta T \sim \mathcal{N}(0, \Sigma_t) $$ 其中,扰动 $\Delta T$ 并非完全随机的高斯噪声。其协方差矩阵 $\Sigma_t$ 是通过一个小型网络根据文本嵌入 $T$ 本身学习得到的。这意味着,语义相似的类别(如“汽车”和“卡车”)其扰动模式也会相似,从而在特征空间中温和地拓宽每个类别的区域,并让不同类别的区域产生合理的重叠,这模拟了现实世界中类别的模糊边界。

图像语义扰动模块 则更加精细: $$ V'(i) = V(i) + \Delta V(i), \quad \Delta V(i) = g(V(i); \theta) $$ 这里,$g(\cdot; \theta)$ 是一个轻量的卷积模块,它以局部视觉特征为输入,输出一个空间自适应的扰动向量。例如,在建筑边缘的像素,扰动可能会增强其与“建筑”文本特征的匹配,同时抑制与“植被”的匹配;而在均质的植被区域,扰动可能更倾向于平滑。这相当于让模型在训练时“见多识广”,提前适应了各种可能的特征变化。

实操心得:在实现扰动模块时,一个关键技巧是控制扰动的强度。我们通过一个可学习的标量参数 $\lambda$ 来控制扰动的大小,并在训练初期将其设得很小,随着训练进行缓慢增加。这避免了过强的扰动破坏CLIP预训练好的语义空间。另一个技巧是,在计算训练损失时,我们不仅使用扰动后的特征进行匹配计算,也会同时使用原始特征计算一个辅助损失。这起到了正则化的作用,确保扰动不会让特征“跑偏”。

3.3 训练策略与损失函数

Pi-Seg的训练是端到端的。损失函数由三部分组成:

  1. 主分割损失:在扰动后的特征上计算的标准交叉熵损失 $L_{seg}$,用于优化像素级分类。
  2. 一致性损失:鼓励扰动前后的特征在语义上保持一致。我们使用KL散度来衡量原始成本图 $C$ 和扰动后成本图 $C'$ 的分布差异:$L_{cons} = D_{KL}(C || C')$。这防止了扰动模块做出过于离谱的修改。
  3. 多样性损失(可选):为了鼓励扰动探索更广的特征空间,我们有时会加入一个损失项,来最大化同一批次内不同样本经过扰动后特征之间的平均距离,避免所有扰动都坍缩到同一个模式。

总的损失为:$L = L_{seg} + \alpha L_{cons} + \beta L_{div}$,其中 $\alpha$ 和 $\beta$ 是平衡超参数,我们通常设 $\alpha=0.5, \beta=0.1$。

训练时,我们使用OVRSIS95K数据集,输入图像被随机裁剪并缩放到固定尺寸(如512x512)。采用AdamW优化器,初始学习率设为1e-4,并配合余弦退火策略。由于CLIP编码器是冻结的,大部分可训练参数集中在扰动模块和成本聚合模块,因此模型训练速度很快,在8张V100 GPU上,大约1天即可完成训练。

4. 实验验证与深度分析

“王婆卖瓜,自卖自夸”可不行。一个模型和基准的价值,必须通过严谨、全面的实验来证明。我们在OVRSISBenchV1、V2以及三个下游任务上进行了广泛的实验,并将Pi-Seg与当前主流方法进行了对比。

4.1 主要对比实验与结果

我们选取了几类有代表性的基线方法进行对比:

  • 两阶段方法:MaskCLIP, 先生成类别无关的掩码,再用CLIP分类。
  • 基于查询的方法:OVSeg, 使用可学习的查询来对齐视觉区域和文本。
  • 成本聚合方法:CAT-Seg, 这是当前自然图像OVS的SOTA方法之一。
  • 训练免费方法:SegEarth-OV, 直接组合冻结的CLIP和SAM,无需训练。
  • 遥感专用方法:RSKT-Seg (我们的前作) 和 GSNet。

评价指标采用在开放词汇语义分割中常用的平均交并比,即分别计算每个类别的IoU(交并比),然后对所有类别(包括已见类和未见类)取平均。为了更细致地评估,我们还会报告已见类平均IoU和未见类平均IoU。

在OVRSISBenchV2上的主要结果如下表所示(数值为百分比,mIoU越高越好):

方法 类型 参数量 (M) GFLOPs 整体 mIoU 已见类 mIoU 未见类 mIoU
MaskCLIP 两阶段 0 (冻结) 150 18.2 25.1 11.3
OVSeg 查询式 85 210 22.7 30.5 14.9
CAT-Seg 成本聚合 45 180 26.4 34.8 18.0
SegEarth-OV 训练免费 0 (冻结) 160 15.8 21.0 10.6
GSNet 遥感专用 120 250 28.1 36.2 20.0
RSKT-Seg 遥感专用 105 230 29.5 37.8 21.2
Pi-Seg (Ours) 遥感专用 62 155 31.8 39.5 24.1

结果分析

  1. 性能领先:Pi-Seg在整体mIoU上达到了31.8%,显著优于其他对比方法。特别是在未见类mIoU上达到24.1%,这比CAT-Seg高出6.1个百分点,比我们之前的RSKT-Seg高出2.9个百分点。这强有力地证明了我们提出的语义引导扰动机制,在提升模型对未知类别泛化能力方面的有效性。
  2. 效率优势:Pi-Seg的参数量仅为62M,计算量155 GFLOPs,是所列方法中最轻量的之一,远低于GSNet和RSKT-Seg。这得益于我们移除了笨重的外部编码器,仅增加了两个轻量的扰动模块。“更少的参数,更好的性能”,这在追求落地应用的场景中极具吸引力。
  3. 基准挑战性:所有方法在V2上的绝对mIoU都不高(最高31.8%),这恰恰说明了OVRSISBenchV2的挑战性。它包含了更复杂的场景、更多的未见类别和更真实的任务,与V1或自然图像基准相比,难度大幅提升,更能区分模型的真实能力强弱。

4.2 消融实验:拆解Pi-Seg的有效性

为了弄清楚Pi-Seg各个组件的作用,我们进行了系统的消融实验:

实验编号 文本扰动 (TSM) 图像扰动 (ISM) 成本聚合 整体 mIoU 未见类 mIoU
1 26.4 18.0
2 28.7 20.5
3 29.1 20.9
4 30.2 22.3
5 31.8 24.1
  • 实验1是基线,即仅使用冻结CLIP特征进行简单匹配(类似CAT-Seg的核心),结果最差。
  • 实验2和3分别加入文本或图像扰动,性能均有显著提升,且图像扰动单独作用时效果略好。这说明对视觉特征的适应性扰动对于遥感域迁移尤为重要。
  • 实验4同时使用两种扰动,产生了明显的协同效应,性能进一步提升。
  • 实验5加入成本聚合模块,最终达到最佳性能。成本聚合模块能有效整合空间上下文,滤除匹配噪声,对生成平滑、一致的分割图至关重要。

4.3 下游任务专项评估

在建筑物提取、道路提取和洪涝检测这三个下游任务上,Pi-Seg也展现出了强大的零样本迁移能力。我们以在OVRSIS95K上训练的模型,直接在这些任务的测试集上进行评估(提示词使用任务相关类别,如“building”, “road”, “flooded area”)。

任务 数据集 Pi-Seg mIoU CAT-Seg mIoU 提升幅度
建筑物提取 WHU Aerial 78.5 72.1 +6.4
道路提取 DeepGlobe 65.3 58.9 +6.4
洪涝检测 FloodNet 42.7 35.2 +7.5

可以看到,Pi-Seg在所有任务上都显著优于最强的通用OVS基线CAT-Seg。尤其是在洪涝检测任务上,7.5个百分点的提升最为明显。这是因为灾害场景的“未见性”最强,模型必须依靠其强大的特征泛化能力来理解“淹没”这种状态。Pi-Seg通过扰动机制拓宽的特征空间,使其能更好地捕捉这种状态与正常“水体”之间的细微差别。

4.4 可视化分析与失败案例

光看数字不够直观,我们通过几个典型场景的可视化结果来深入理解Pi-Seg的优势。

场景一:密集城区建筑分割 在iSAID数据集的密集城区场景中,CAT-Seg会将一些阴影区域或深色屋顶误判为“水体”,而GSNet虽然能区分建筑和非建筑,但对建筑边界的定位比较模糊。Pi-Seg不仅准确区分了建筑、道路、车辆,对建筑边界的勾勒也更为清晰锐利。这得益于图像扰动模块增强了边缘特征的判别力。

场景二:复杂水域船舶识别 在VDD数据集的港口场景,任务是从复杂的水体背景中分割出“船舶”。训练集中有“车辆”,但无“船舶”。RSKT-Seg将部分大型船舶误检为“建筑群”,而Pi-Seg则能较准确地识别出船舶的独立轮廓。这说明文本扰动模块让“vehicle”的原型特征具有一定的延展性,能够泛化到形状相似但语义不同的“ship”上。

场景三:洪涝灾害区域检测 在FloodNet数据集上,给定“flooded urban area”的文本提示。基线模型CAT-Seg只能分割出大面积的水体,但无法区分正常河流和淹没区。Pi-Seg则能更精确地勾勒出街道和建筑区域的淹没范围。我们分析,这是因为扰动机制让模型对“urban area”和“water”的特征组合产生了更丰富的内部表征,从而能响应“flooded”这种复合概念。

失败案例与局限性: 当然,Pi-Seg并非万能。我们观察到的主要失败模式有:

  1. 细小线性地物:对于非常细长的道路(宽度仅几个像素)或电力线,模型容易断裂或漏检。这是因为CLIP的视觉编码器在预训练时可能缺乏对此类极端长宽比特征的充分学习。
  2. 高度相似材质:例如,将“沥青操场”误判为“停车场”,或将“裸露土壤”误判为“沙地”。这属于细粒度材质分类的难题,需要更精细的文本描述或引入多模态信息(如光谱)。
  3. 极端尺度变化:同一张图像中,近处的大型船舶和远处的小型船舶,模型对小目标的识别率会下降。这是遥感分割的普遍问题,可能需要引入更高效的多尺度特征融合机制。

5. 总结与未来工作展望

通过构建OVRSISBenchV2和提出Pi-Seg基线,我们为开放词汇遥感图像分割领域提供了一个更坚实的研究平台和一个高效的解决方案。回过头看,这项工作带给我的核心体会是:

第一,数据是瓶颈,更是突破口。 OVRSIS95K的构建过程虽然繁琐,但它证明了高质量、大规模、平衡的数据集是推动领域发展的基石。未来,如何设计更智能、更自动化的标注流程,甚至探索利用多模态大模型进行弱监督或自监督预标注,是降低数据成本的关键。

第二,轻量化与有效性可以兼得。 Pi-Seg的设计哲学是“四两拨千斤”。它没有堆砌复杂的模块,而是通过精巧的扰动机制,在预训练模型的“富矿”里挖掘出更多的泛化潜能。这提示我们,在资源受限的边缘计算平台(如无人机、卫星)上部署OVRSIS模型是可行的,重点在于设计高效的适配策略,而非盲目增大模型。

第三,评估必须贴近应用。 加入建筑物、道路、洪涝检测等下游任务评估,让研究不再是“空中楼阁”。这迫使我们去思考模型在实际业务中的真实表现。未来,基准还可以纳入更多样化的任务,如农作物分类、违章建筑检测、冰川变化监测等,形成一个覆盖主要遥感应用的“任务超市”。

对于想要复现或在此基础上进行研究的同行,我的建议是:

  1. 先从Pi-Seg的代码跑通开始。代码和数据集均已开源,环境配置相对简单。重点关注train.py中扰动强度的调度策略和损失权重的设置,这对复现结果很重要。
  2. 深入理解成本聚合模块。虽然本文中我们使用了一个简单的CNN,但这里有很大的创新空间。可以尝试替换为更高效的Transformer或图神经网络,研究如何更好地融合空间与通道维度的上下文信息。
  3. 探索更先进的扰动策略。当前的扰动是基于高斯分布的。是否可以引入基于扩散模型的更复杂的生成式扰动?或者利用对抗学习来生成“最难”的扰动样本?
  4. 尝试结合最新的基础模型。CLIP虽然强大,但视觉编码器ViT-L/14也有其局限。可以尝试将Pi-Seg的框架迁移到更新的、能力更强的视觉-语言模型上,如OpenCLIP或InternVL,观察性能天花板在哪里。

开放词汇遥感图像分割的大门已经打开,前面是一片充满挑战与机遇的广阔天地。OVRSISBenchV2和Pi-Seg是我们递出的一块敲门砖,期待与社区一起,推动这项技术从实验室走向千行百业的真实场景,让卫星的“眼睛”真正变得智慧而通透。

YOLOE开放词汇分割教程YOLOE-v8l-seg模型输出maskbbox解析指南
本指南深入解析YOLOE-v8l-seg模型开放词汇分割输出结构,重点讲解Results对象中Boxes(归一化坐标、置信度、类别ID)Masks(640×640概率图、阈值二值化、轮廓坐标)的物理含义及转换方法;涵盖mask提取、几何特征计算、批量处理、OpenCV对接等工程实践,并针对None mask、模糊掩码、越界bbox、GPU显存不足四大常见问题提供实测解决方案。
疯狂的马修
432
YOLO系列 目标分割txt格式数据增强(YOLOv5-seg YOLOv6-seg YOLOv7-seg YOLOv8-seg YOLOv9-seg YOLOv10-seg
本文聚焦计算机视觉领域,探讨YOLO系列目标分割模型的数据增强。YOLO系列模型拓展到目标分割领域后,数据增强对提升模型性能至关重要。文章介绍了数据增强在YOLO - Seg模型训练中的好处,还给出增强步骤及seg数据增强相关内容,为目标分割研究提供实操指南。
道 心
2813
如何快速上手Falcon Perception革命性0.6B参数视觉语言模型开启开放词汇实例分割新纪元
Falcon Perception是一款0.6B参数的早期融合视觉语言模型,专为开放词汇实例分割设计。它支持自然语言驱动的像素级掩码生成,具备混合注意力机制、感知链解码并行掩码解码能力。在SA-Co基准上Macro F1达68.0,显著优于SAM 3;支持零样本学习、多实例分割及拥挤场景处理,但存在OCR依赖存在性校准限制。
陆宜君
729
基于先验知识集成的遥感图像语义分割方法RSAM-Seg
本文介绍了一种新型的深度学习架构RSAM-Seg,通过在编码器中添加Adapter-Scale和Adapter-Feature,自动生成图像信息提示,无需人工干预。该方法通过ViT块的修改和高频特征提取,提升了遥感任务的性能。
努力小橙
1831
CVPR 2024最佳论文候选OMG-Seg如何重新定义分割任务边界?
OMG-Seg是CVPR 2024最佳论文候选,提出首个统一架构支持图像/视频/交互式/开放词汇分割的全能分割模型。基于Transformer编码器-解码器任务特定查询机制,仅7000万参数即覆盖语义、实例、全景及其视频变体共16+细分任务,在精度、效率泛化性上全面领先。已开源代码预训练模型,支持智能监控、交互编辑与开放场景理解等工业级应用。
汪萌娅Gloria
391
开放词汇实例分割改进YOLOv26视觉语言融合零样本分割双重突破
本文提出YOLOe-26-Seg,一种面向开放词汇与零样本能力的实时实例分割模型。其核心包括视觉-语言双编码器、双向对比学习对齐、开放词汇检测头及Proto26原型生成网络;支持类别/属性/场景提示工程、文本嵌入缓存动态类别扩展;采用One-to-Many/One-to-One双分支联合训练,并集成同义词替换、描述扩展多语言文本增强策略。在COCO和LVIS数据集上验证了APmask提升零样本泛化显著增强。
duyinbi7517
203
YOLOE开放词汇检测教程YOLOE-v8l-seg在社交媒体图像内容审核应用
本文详解YOLOE-v8l-seg模型在社交媒体图像内容审核中的落地应用,聚焦其开放词汇检测能力——支持文本提示、视觉提示及无提示三种模态,可动态识别未见类别物体;涵盖环境部署、多阶段审核流水线构建、图文联合分析(含文字区域定位)、批量推理优化及轻量/全量微调策略,强调GPU加速下的实时分割性能审核精度平衡。
滚菩提哦呢
365
YOLOE开放词汇检测实操YOLOE-v8l-seg支持‘戴墨镜的老人’等组合描述
本文详细介绍了YOLOE-v8l-seg模型开放词汇目标检测实例分割中的实际应用,涵盖文本提示、视觉提示及无提示三种模式的操作方法;重点演示了对'戴墨镜的老人'等组合描述的支持能力,并解析其统一架构、RepRTA文本优化、SAVPE视觉编码和LRPC无提示机制等核心技术;同时给出性能调优、微调策略及工业、零售、内容审核等落地场景建议。
766
YOLOE开放词汇检测教程YOLOE-v8l-seg模型支持负向提示词(如非人)
本文详解YOLOE-v8l-seg模型开放词汇负向提示(如'non-human')的原生支持能力,涵盖镜像环境快速启动、文本/视觉/无提示三种范式差异、负向提示在分割任务中的端到端推理机制、Python API调用方法,以及在安防监控、工业质检和自动驾驶场景下的实效对比。强调其在特征层面抑制而非后处理剔除的技术本质,并给出中文提示规范效果量化评估指标。
FasterThanMind
390
【图像分割】记录1:unet, yolov8_seg
本文详细记录了图像分割技术的实践过程,包括数据获取、模型复现、环境配置、参数调整、bug解决以及模型推理。同时,还介绍了如何在Android平台上部署YOLOv8_seg模型,包括软件安装、配置和项目结构设置。
林间寻鸟语
1408
【论文复现赛第七期】Fact-Seg论文复现(拯救你的小目标分割
提出Fact-Seg网络,针对小目标分割难题,利用双分支解码器、CP损失及SOM优化策略,在遥感图像上实现高效准确的小目标提取。
AI Studio
2376
轻量分割网络总结
这篇博客总结了轻量分割网络的最新进展,包括DDRNet、STDC-Seg(重新思考BiSeNet)、ExtremeC3Net、DFANet和人像分割领域的BiseNetV2。文章提供了相关模型的开源链接、论文引用和性能特点,重点关注实时性和高精度的平衡。
AI算法网奇
3866
YOLOE官版镜像开源可部署YOLOE-v8m-seg模型权重训练脚本全部开放
本文介绍YOLOE官版镜像开源成果,重点发布YOLOE-v8m-seg模型权重、训练脚本及三类提示机制(文本提示RepRTA、视觉提示SAVPE、无提示LRPC),支持开箱即用的开放词汇目标检测实例分割。涵盖环境部署、线性探测/全量微调、LVIS/COCO零样本性能实测,并强调其在电商识别、工业质检、内容审核等场景的实际应用价值。
KX-EZ
402
YOLOE开源镜像实操YOLOE-v8m-seg模型在多GPU环境下的分布式推理
本文详解YOLOE-v8m-seg模型在多GPU环境下的分布式推理全流程,涵盖镜像启动、设备分配、文本/视觉/无提示三种推理模式、吞吐量显存实测、跨卡一致性验证及Gradio封装等生产部署要点。重点突出其开放词汇检测、端到端实例分割、零样本迁移能力,并验证双A100下近1.9倍加速比零精度损失。
明月清风晓星
1061
YOLOE官版镜像5分钟上手:开放词汇检测一键部署
本文介绍YOLOE官版Docker镜像的快速上手方法,支持文本提示、视觉提示和无提示三种开放词汇目标检测模式。镜像预装环境,5分钟内可完成验证推理,实测RTX 4090达27 FPS并同步输出实例分割掩码。涵盖轻量微调(线性探测/全量微调)及Gradio、Python API、RESTful Docker三种生产级部署方式。
徐晓波
822
YOLOE-v8l-seg模型一键加载,检测分割一步到位
YOLOE-v8l-seg是一种支持开放词汇的目标检测实例分割联合模型,具备零样本迁移能力,可在单次前向中同步输出bounding box和像素级mask。依托RepRTA文本提示、SAVPE视觉提示和LRPC无提示三种范式,实现免训练、免标注的快速业务适配。模型经TorchScript编译CUDA Graph优化,在RTX 4090上达28FPS,支持一键容器部署、轻量微调及TensorRT边缘导出。
Jacob Piao
89
MathorCup赛题开源方案——遥感图像地块分割与提取
本文介绍了一种利用遥感图像进行耕地分割与提取的方法,聚焦资源三号卫星数据,探讨高精度耕地信息提取的重要性。通过Paddlepaddle的DeepLab V3+模型实现语义分割,为耕地遥感制图提供技术支撑。
BIT可达鸭
2487
基于UNFormer的遥感图像建筑物语义分割模型设计PyTorch全流程实现
本文介绍基于UNFormer的遥感图像建筑物语义分割模型设计PyTorch全流程实现,涵盖环境配置、数据预处理、模型构建、训练优化及推理部署。采用WHU数据集,结合CNNTransformer优势,提升分割精度,mIoU达90%以上,支持高效批量推理可视化分析。
ai学长
3157
YOLOE-v8l-seg工业应用PCB板元件识别焊点缺陷分割案例
本文介绍YOLOE-v8l-seg模型在工业视觉中的实际应用,聚焦于PCB板元件识别焊点缺陷的像素级分割。重点阐述其开放词汇表、零样本迁移能力,支持文本提示、视觉提示及无提示三种检测模式,并提供线性探测全量微调两种轻量化适配策略,显著降低数据标注与模型迭代成本,适用于实时在线质检场景。
KY主创
317
【目标检测】YOLOv5-7.0加入实例分割 YOLOv5-seg 模型
YOLOv5的7.0版本引入实例分割功能,支持PaddlePaddle模型导出和Comet日志记录。用户可下载代码、预训练模型和数据集进行实例分割实践,如coco128-seg模型训练过程涉及修改配置文件和调整batch-size。
小范好好学习
3799