ASGNet:自适应频谱引导网络在结肠息肉分割中的创新应用

图像分割医学影像分析结肠息肉分割
于 2026-05-30 03:02:04 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述与核心挑战

结肠息肉分割是计算机辅助诊断系统中的一项基础且关键的任务。简单来说,它的目标就是让计算机像经验丰富的内镜医生一样,在结肠镜检查视频或图像中,自动、精确地勾勒出息肉(一种肠道内壁的异常隆起,部分可能癌变)的轮廓。这听起来像是图像分割的常规操作,但实际操作起来,你会发现它远比分割一张照片里的猫狗要复杂和棘手得多。

为什么这么说?首先,肠道环境本身就“不友好”。内窥镜下的肠道黏膜纹理复杂,存在大量褶皱、反光、粘液和食物残渣,这些都会对息肉的真实形态造成严重干扰。其次,息肉本身也“千变万化”。它们的尺寸差异巨大,从几个像素的微小息肉到占据图像大半区域的大息肉都有;形态更是各异,有扁平状、有蒂状、分叶状,边界常常模糊不清,与周围正常组织的对比度很低。最后,数据获取和标注成本极高。高质量的、像素级标注的医学图像数据集规模有限,且标注一致性难以保证,这给深度学习模型的训练带来了巨大挑战。

因此,一个优秀的息肉分割模型,不能仅仅是一个“特征提取+上采样”的通用分割框架。它必须是一个“特种兵”,具备针对性的能力:能穿透复杂背景的“噪声”,精准定位目标;能同时看清“森林”(全局息肉区域)和“树木”(清晰的息肉边界);并且对于不同大小、形状的目标都要有稳定的表现。

基于这些观察,我们团队提出了自适应频谱引导网络(Adaptive Spectrum Guidance Network, ASGNet)。这个设计的核心思路,是跳出传统空间域卷积的局限,从频域视角重新思考特征增强和信息融合。我们引入了三个核心模块:频谱引导的非局部感知模块(SNP)多源语义提取器(MSE)密集跨层交互解码器(DCI)。简单比喻一下,SNP模块就像一个“全局侦察兵”,利用频域分析快速锁定息肉可能存在的区域并抑制背景干扰;MSE模块则像一组“多焦距镜头”,从不同尺度捕捉息肉的高层语义信息,进行粗定位;最后的DCI解码器则是一位“精加工师”,将前面所有模块提供的多尺度、多维度信息进行深度融合与优化,最终输出高精度的分割掩膜。

在CVC-300、CVC-ColonDB等多个公开数据集上的实验表明,ASGNet在Dice系数、IoU等关键指标上均超越了包括PVT、Swin-Unet在内的21个先进模型。更重要的是,在视觉结果上,ASGNet对于边界模糊、尺寸小的息肉分割效果提升尤为明显。这篇文章,我将为你深入拆解ASGNet的每一个设计细节、背后的思考逻辑、具体的实现要点,以及我们在调优过程中踩过的“坑”和总结的经验。无论你是刚入门医学图像分析的研究者,还是希望将最新模型落地的工程师,相信都能从中获得启发。

2. 网络架构深度解析:从空间到频谱的思维跃迁

ASGNet的整体架构遵循编码器-解码器范式,但我们在特征提取、增强和融合的每一个环节都进行了创新。下图展示了网络的整体流程,接下来我们将逐一剖析其核心组件。

TEXT
输入图像 (352x352)
|
v
[Backbone编码器 (ResNet34/50)] --> 提取多尺度特征图 {C1, C2, C3, C4, C5}
|
v
|-----------------------|
| 频谱引导非局部感知模块 (SNP) |
| 作用于C4/C5高层特征 |
|-----------------------|
|
v
|-----------------------|
| 多源语义提取器 (MSE) |
| 作用于SNP增强后的特征 |
|-----------------------|
|
v
|-----------------------|
| 密集跨层交互解码器 (DCI) |
| 融合{C1,C2,C3,MSE输出}|
|-----------------------|
|
v
分割掩膜输出

2.1 骨干网络与特征金字塔:稳固的地基

我们选择ResNet系列(如ResNet34、ResNet50)作为骨干编码器。这几乎是当前分割任务的标准选择,原因在于其残差结构能有效缓解深层网络梯度消失问题,并且预训练权重(在ImageNet上)提供了良好的初始特征表示,能加速模型在医学图像上的收敛。

骨干网络会输出五个不同尺度的特征图,我们记为{C1, C2, C3, C4, C5},其中C1分辨率最高、语义性最弱(包含更多边缘、纹理细节),C5分辨率最低、语义性最强(包含更多“这是否为息肉”的类别信息)。传统的FPN(特征金字塔网络)会直接将这些特征自顶向下融合。但在ASGNet中,我们并不急于融合,而是先对高层特征(C4, C5)进行“强化”。

实操心得:骨干网络选型 在医学图像分割中,ResNet50是一个性能与效率的平衡点。ResNet101等更深的网络带来的性能提升往往有限,但参数量和计算成本显著增加。对于追求极致轻量化的场景(如部署到移动设备),可以考虑MobileNetV3或EfficientNet作为骨干。但需要注意的是,更换骨干网络后,后续模块的通道数可能需要相应调整,以保持特征维度匹配。

2.2 频谱引导的非局部感知模块(SNP):全局洞察力的来源

这是ASGNet的第一个创新点。传统卷积操作受限于局部感受野,要获取全局信息需要堆叠非常深的层或使用空洞卷积,但这会带来计算量激增和网格效应等问题。自注意力机制(如Transformer)虽然能建模长程依赖,但其计算复杂度与图像尺寸的平方成正比,对于高分辨率医学图像并不友好。

SNP模块的灵感来源于信号处理中的频域分析。其核心思想是:将特征图从空间域转换到频域(通过快速傅里叶变换FFT),在频域中进行全局信息的筛选和增强,再转换回空间域。为什么这么做?因为在频域中,图像的不同成分(低频对应轮廓、平滑区域,高频对应边缘、纹理、噪声)是解耦的。对于息肉分割,我们既需要低频的全局形状信息来定位息肉区域,也需要选择性地增强与息肉边界相关的中高频信息,同时抑制由粘液、反光等造成的无关高频噪声。

SNP模块的具体工作流程如下:

  1. 输入与投影:输入高层特征图F_in (例如来自C5)。首先通过两个1x1卷积层生成两个投影特征Q和K,用于计算注意力图。
  2. 频域变换与滤波:这是关键步骤。将Q和K从空间域转换到频域,得到它们的频谱表示。然后,我们设计了一个自适应频谱滤波器(Adaptive Spectrum Filter, ASF)。这个滤波器不是一个固定的滤波器组,而是一个可学习的参数模块。它根据输入特征的内容,动态生成一组频域权重,用于对Q和K的频谱进行调制。
    • 滤波器的作用:可以理解为,ASF学会了“看”频谱。它会强化那些对息肉识别有益的频率成分(例如,与息肉边界方向一致的频率),并弱化那些代表背景杂乱纹理或噪声的频率成分。
  3. 频域注意力计算:在频域中,使用调制后的Q和K频谱计算一个全局注意力图。由于在频域操作,这一步本质上是在全局范围内计算所有位置的相关性,但通过FFT/逆FFT(IFFT)的快速算法,其复杂度仅为O(N log N),远低于空间域自注意力的O(N²)。
  4. 逆变换与输出:将计算得到的频域注意力图通过IFFT转换回空间域,然后与经过另一个1x1卷积投影的特征V相乘,再与原始输入F_in残差连接,得到增强后的特征F_snp。

为什么SNP比普通自注意力或非局部模块更好? 我们做了消融实验(见原文Table V)。移除ASF(即SNP w/o ASF)或完全移除频谱信息(即使用空间域自注意力),模型性能在CVC-300数据集上的M指标(衡量分割结果与真实标注的结构相似性)从0.008恶化到0.010甚至0.014。这证明了两点:第一,引入频域视角对捕捉全局上下文是有效的;第二,自适应的频域滤波(ASF)至关重要,它不是一个花架子,而是能主动选择有用信息、过滤噪声的关键部件。视觉对比图也显示,SNP模块能更好地还原息肉的整体形状,减少背景误判。

2.3 多源语义提取器(MSE):多尺度感受野的协同

经过SNP增强的特征已经具备了丰富的全局上下文信息。接下来,MSE模块的任务是从这些特征中,提取不同尺度、不同感受野下的高层语义信息,为后续的精确分割提供多角度的“线索”。

MSE的设计借鉴了ASPP(空洞空间金字塔池化)和RFB(感受野模块)的思想,但进行了重要改进。它由多个并行的分支构成,每个分支包含:

  1. 一个1x1卷积,用于降维和特征整合。
  2. 一个具有不同空洞率(dilation rate)的3x3空洞卷积,用于获取不同的感受野。
  3. 一个自适应频谱滤波器(ASF),对每个分支的特征再次进行频域增强。

关键设计:空洞率的渐进式设置 空洞率的选择直接决定了每个分支能“看到”多大范围的上下文。我们不是随意设置,也不是像ASPP那样使用固定的几个率(如1, 6, 12, 18)。在MSE中,我们采用了渐进递增的空洞率序列。在最终版本中,我们设置为(3, 6, 9, 12, 15, 18)。为什么这样设置?

我们进行了详实的实验(见原文Table VIII)。对比了四种设置:

  • (1,1,1,1,1,1):相当于普通卷积,感受野有限。
  • (1,2,3,4,5,6):线性递增,感受野覆盖范围连续。
  • (2,4,6,8,12,16):跳跃式递增,覆盖范围更广。
  • (3,6,9,12,15,18):我们采用的方案,在中等范围开始,以固定步长3递增。

实验结果表明,(3,6,9,12,15,18)这组参数在多个数据集上取得了最佳的综合性能。我们的分析是:从3开始,避免了过小的空洞率带来的冗余计算(与1x1卷积功能重叠),而以3为步长能保证不同分支的感受野有足够的差异性,又能平滑地覆盖从小到大的上下文范围,这对于捕捉不同尺寸的息肉特别有效。每个分支提取的特征经过其专属的ASF滤波后,再进行拼接和融合,最终输出一个融合了多尺度语义信息的特征图F_mse。

注意事项:空洞卷积的“网格效应” 当空洞率设置过大时,空洞卷积核的采样点会变得非常稀疏,导致在局部区域丢失连续信息,产生“网格效应”,反而损害小目标的细节。因此,空洞率的选择需要权衡感受野和细节保持。我们的渐进式方案和早期实验(如尝试更大的率)证实了这一点,盲目增大空洞率对息肉分割并无益处。

2.4 密集跨层交互解码器(DCI):精细化的特征融合艺术

拥有了SNP提供的全局增强特征和MSE提供的多尺度语义特征后,最后一步是如何将它们与编码器早期的低层高分辨率特征(C1, C2, C3)融合,生成最终的高精度分割图。这就是DCI解码器的任务。

传统的FPN或UNet++采用简单的自上而下融合和跳跃连接,但这种方式特征交互不够充分。DCI的核心思想是密集的、双向的跨层信息流动。它不仅仅是将高层特征上采样后与低层特征相加,而是构建了一个小型的特征精炼网络。

DCI的工作步骤:

  1. 输入准备:接收来自MSE的输出F_mse(最具语义性)、以及来自编码器的C3, C2, C1特征(分辨率递增,细节丰富)。
  2. 自上而下融合与ASF增强:首先,将F_mse上采样至与C3相同尺寸,然后与C3拼接。拼接后的特征会先经过一个ASF模块(对,这里又用到了频谱滤波),从频域角度优化融合特征,抑制可能由直接拼接引入的不协调频率成分。接着通过一个卷积块进行融合。这个过程的输出记为P3。
  3. 横向与自下而上传播:P3继续上采样,与C2拼接、经ASF优化、卷积融合,得到P2。同理得到P1。至此是常见的自上而下路径。
  4. 边缘信息显式注入:这是DCI的另一个亮点。我们显式地从最底层的特征C1(富含边缘细节)中提取边缘信息。通过一个轻量的边缘提取卷积核(如Sobel算子或可学习的边缘检测层)生成边缘注意力图。这个边缘图会作为一个重要的引导信号,在P1生成最终输出前,与特征进行点乘或注意力调制,确保分割边界与图像的真实边缘对齐。
  5. 密集交互:在上述过程中,每一层的特征在生成后,不仅向上传递,还会经过一个额外的卷积层后,向下采样,与下一层正在融合的特征进行二次交互(类似DenseNet),形成密集连接。这确保了信息能在不同尺度的特征间充分流动。

消融实验的验证(见原文Table IX)清晰地展示了DCI中每个组件的作用:

  • 移除ASF(DCI w/o ASF):性能下降,说明频域优化在特征融合阶段同样有效。
  • 移除边缘信息(DCI w/o Edge):边界相关的指标(如F_w^m,加权F-measure)下降明显,视觉上边界变得模糊。
  • 完整的DCI:取得了最佳效果,证明了全局频谱信息与局部边缘信息在解码器中的互补性。

3. 实验配置、训练细节与结果分析

3.1 数据集与评估指标

我们使用了息肉分割领域三个广泛认可的公开数据集来评估ASGNet:

  • CVC-ClinicDB:包含612张来自结肠镜检查视频的帧,息肉尺寸和形态多样。
  • CVC-ColonDB:包含380张图像,挑战在于部分息肉边界极其模糊。
  • Kvasir-SEG:包含1000张息肉图像,数据量相对较大,更具普遍性。

为了全面评估模型性能,我们采用了四个主流的分割评估指标:

  1. Dice系数 (Dice):衡量预测区域与真实标注区域的重叠度,对内部区域填充敏感。Dice = 2 * |X ∩ Y| / (|X| + |Y|)
  2. 交并比 (IoU):与Dice类似,但计算方式不同,IoU = |X ∩ Y| / |X ∪ Y|。通常比Dice值略低。
  3. 加权F-measure (F_w^m):在标准F-measure基础上,根据预测结果与真实边界的对齐精度进行加权,对边界精度更敏感。
  4. 结构度量 (Structure Measure, M):专门评估预测掩膜与真实掩膜在结构相似性上的指标,能更好地反映分割结果的视觉质量。

3.2 训练策略与超参数调优

训练设置:

  • 框架:PyTorch 1.9。
  • 优化器:AdamW,初始学习率设为1e-4,采用余弦退火策略进行衰减。
  • 损失函数:结合Binary Cross-Entropy (BCE) LossDice Loss。这是医学图像分割的黄金标准。BCE Loss关注每个像素的分类正确性,Dice Loss直接优化区域重叠度,两者互补。
  • 数据增强:为了提升模型鲁棒性,我们使用了随机水平/垂直翻转、随机旋转(-15° 到 +15°)、随机亮度/对比度调整、以及弹性形变。这对于医学图像小数据集至关重要。
  • 输入尺寸:我们对比了多种输入分辨率(见原文Table XI)。最终选择352x352作为平衡点。虽然288x288计算量更小,但352x352在CVC-300上带来了显著的性能提升(Dice从0.906升至0.913),而在CVC-ColonDB上性能持平。更大的尺寸(384, 416)带来了计算量的显著增加,但性能增益有限,甚至可能因细节过多引入噪声导致过拟合。

超参数分析:解码器通道数 解码器(主要是DCI模块)的通道数是一个重要的超参数。我们测试了32, 64, 96, 128, 160等设置(见原文Table X)。

  • 通道数过小(如32):特征表示能力不足,模型容量受限,性能有瓶颈。
  • 通道数适中(96):在CVC-300上取得了最佳性能(Dice 0.913),在CVC-ColonDB上也表现优异(Dice 0.778)。这是性能与参数/计算量的最佳权衡点。
  • 通道数过大(128, 160):模型参数量和FLOPs大幅增加,但在CVC-ColonDB上的性能并未提升,甚至在CVC-300上出现轻微过拟合迹象(Dice从0.913降至0.904/0.896)。这表明对于当前的数据集和任务,96个通道已经足够捕获所需的信息,盲目增加容量可能导致模型记住数据噪声而非学习通用特征。

实操心得:损失函数与学习率

  1. BCE+Dice Loss的组合权重:通常我们采用1:1的简单相加。但在一些边界特别难分的案例上,可以尝试略微增加Dice Loss的权重(如0.4:0.6),这有助于模型更关注区域整体的完整性。
  2. 学习率预热:对于使用预训练骨干的网络,在训练初期(例如前5个epoch)使用一个非常小的学习率(如1e-6)进行“预热”,让模型慢慢适应新任务,然后再升至1e-4,通常能带来更稳定的收敛和略微更好的最终精度。

3.3 对比实验与结果分析

我们将ASGNet与21个最新的息肉分割或通用分割模型进行了对比,包括基于CNN的(如UNet++, PraNet)、基于Transformer的(如Swin-Unet, TransFuse)以及一些最新的专用息肉分割模型(如Polyp-PVT, LSSNet)。

定量结果显示,ASGNet在绝大多数数据集和指标上都取得了最优或次优的性能。特别是在衡量边界质量的F_w^m和结构相似性的M指标上,优势更为明显。这直接验证了我们引入频谱引导和密集跨层交互对于提升分割边界精度的有效性。

定性(视觉)对比更能说明问题。我们选取了一些具有挑战性的案例进行展示:

  • 案例一:边界模糊的扁平息肉。许多对比模型要么分割不全,要么边界溢出到周围黏膜。ASGNet得益于SNP的全局感知和DCI的边缘引导,能更准确地勾勒出息肉的真实范围。
  • 案例二:小尺寸息肉。在复杂肠道背景下,小息肉极易被淹没。ASGNet的MSE模块通过多尺度感受野,增强了对小目标的语义捕捉能力,使其能够被有效检测和分割。
  • 案例三:存在强反射光。反射光区域在图像中表现为高亮,容易让模型误判为息肉。ASGNet的频域ASF滤波器能够有效抑制这种高频的、无结构的噪声信息,从而避免误分割。

模块消融实验(原文Table IV)系统地证明了每个组件的贡献:

  • 单独使用Baseline(ResNet50+FPN)效果一般。
  • 加入SNP模块后,各项指标显著提升,尤其是M指标,说明全局结构信息得到增强。
  • 加入MSE模块后,Dice和IoU提升明显,说明多尺度语义提取有效。
  • SNP+MSE组合效果优于任一单独模块,证明二者是互补的。
  • 最终加入DCI解码器后,模型达到最佳性能,证明了我们设计的融合策略的成功。

4. 失败案例分析、局限性与未来展望

尽管ASGNet表现优异,但没有任何模型是完美的。坦诚地分析失败案例,是推动研究前进的重要一步。

4.1 典型失败案例

我们模型主要的失败集中在以下两类情况(见原文Fig.13):

  1. 极端微小息肉:尺寸在10个像素以下的息肉。在低分辨率输入下,这些息肉可能只占据几个像素点,其特征信号极其微弱,很容易被背景噪声或肠道纹理淹没。即使MSE模块的多尺度设计,也难以从如此有限的信息中可靠地提取语义。
  2. 与周围组织高度同质的息肉:有些息肉的颜色、纹理与周围正常黏膜几乎完全一致,边界在视觉上完全消失。在这种情况下,模型缺乏足够的对比度信息来做出判断,频谱分析也难以找到独特的频率模式进行区分。

4.2 当前局限性与改进思路

基于以上分析,ASGNet的主要局限性在于对极低信噪比极低对比度目标的处理能力仍有待提升。这本质上是数据驱动方法在医学图像“困难样本”上的共性挑战。

未来可能的改进方向:

  1. 数据层面的增强

    • 针对小目标的过采样/数据增强:在训练数据中,对包含极小息肉的图像进行复制或应用特殊的增强(如局部放大后再裁剪回原尺寸),增加模型学习小目标特征的机会。
    • 合成数据生成:利用生成对抗网络(GAN)或扩散模型,合成更多边界模糊、尺寸微小、形态各异的“困难”息肉样本,补充到训练集中。
    • 利用未标注数据:探索半监督或自监督学习,利用大量未标注的结肠镜图像进行预训练,让模型学习更通用的肠道图像表征。
  2. 模型架构的演进

    • 更精细的多尺度设计:可以设计一个动态的、自适应的感受野选择机制,让模型能根据输入图像内容,自动决定在哪个区域、使用多大尺度的感受野,而不是固定的事先设定。
    • 引入不确定性估计:让模型不仅输出分割图,还输出每个像素点的预测置信度。对于低置信度区域(通常是困难区域),可以提示医生进行重点复核,将AI定位为“高灵敏度筛查助手”而非“全自动判决器”。
    • 探索时序信息:结肠镜检查本质是视频流。当前方法处理静态帧,丢失了息肉在连续帧中的运动、形变信息。未来可以设计视频息肉分割模型,利用时序一致性来提升单帧分割的鲁棒性。
  3. 训练策略的优化

    • 困难样本挖掘:在训练过程中,动态识别那些模型当前分错的样本(如小息肉、同质息肉),在后续的训练轮次中给予更高的权重或更多的关注。
    • 定制化损失函数:设计更能惩罚小目标漏检和边界错误的损失函数,例如结合多尺度Dice Loss,或者在边界区域计算更严格的损失。

在我个人实现和调优ASGNet的过程中,一个深刻的体会是:在医学图像分析领域,对问题本质的洞察往往比堆砌复杂的模块更有效。我们从“频域”这个相对新颖的视角切入,用自适应滤波和密集交互解决了边界模糊和尺度变化这两个核心痛点。这个思路或许可以迁移到其他类似挑战的任务中,比如皮肤病变分割、视网膜血管分割等。最后,给想要复现或在此方向深耕的朋友一个建议:一定要花时间可视化中间特征图。看看SNP模块前后的特征差异,看看MSE各个分支到底关注了什么,看看DCI融合后的边界是否清晰。这不仅能帮你理解模型的工作原理,更是调试模型、发现问题的利器。

CVF2020邻域自适应/语义分割:FDA: Fourier Domain Adaptation for Semantic SegmentationFDA用于语义分割的傅立叶域自适应算法
本文介绍了一种无监督领域适应方法FDA,通过在低频谱间交换源和目标图像,减少分布差异,提升语义分割的性能。简单易行,无需额外训练,实验证明在标准基准上超越了复杂对抗性方法。
HheeFish
4634
FDA: 用于语义分割的傅里叶域自适应
本文提出一种简单有效的无监督域自适应方法——傅里叶域自适应(FDA),通过交换源域与目标域图像的低频幅度谱来缩小域间差异。该方法无需额外训练即可实现域对齐,仅需傅里叶变换与逆变换操作,在语义分割任务中表现出色。结合多模型平均预测的自监督策略,进一步提升了在GTA5、SYNTHIA到Cityscapes等跨域场景下的分割性能。
Scabbards_
2729
软件无线电的频谱艺术用AD9361+ZYNQ实现实时频谱分析与自适应滤波
本文介绍基于AD9361射频收发器与Xilinx ZYNQ SoC的软件无线电系统,重点实现毫秒级实时频谱分析(FPGA加速FFT)、LMS自适应滤波器硬件化部署及CNN驱动的频谱认知。涵盖SPI/LVDS接口配置、AXI/DMA协同机制、Hann窗频谱校正、4位量化神经网络分割推理等关键技术,解决高采样率下数据对齐、动态干扰抑制与PS-PL带宽争用等工程难题。
走路带风的何小璐
414
频域自适应空洞卷积FADC详解
频域自适应空洞卷积FADC是创新卷积技术,克服传统空洞卷积局限。它有自适应膨胀率、频域转换、频率选择、自适应卷积核等机制。FADC在语义分割、目标检测等任务中表现出色,能平衡有效带宽和感受野大小,提高模型性能,还具有良好可扩展性。
清风AI
1754
频谱知识图谱面向未来频谱管理的智能引擎人工智能技术与咨询
本文探讨了知识图谱在频谱管理中的应用,提出频谱知识图谱的概念,用于表征复杂电磁环境中的频谱资源与用频设备关系。知识图谱能提升频谱管理自动化、智能化和精准化,解决传统管理模式的局限。通过构建频谱知识图谱,可以支持智能频谱管理框架,实现用频推荐和智能交互应用。文章还展示了基于频谱知识图谱的智能用频推荐案例,验证了知识图谱在链路质量矩阵补全中的效果,为未来频谱管理提供了新思路。
人工智能技术与咨询
2768
74、用于视频对象分割的全局频谱滤波记忆网络
本文介绍了一种新的全局频谱滤波记忆网络(GSFM),用于半监督视频对象分割。GSFM通过频谱域融合全局依赖关系,并区分高频和低频分量进行增强,有效解决了现有方法在帧内依赖挖掘和对象边界分割方面的不足。实验结果表明,GSFM在DAVIS和YouTube - VOS基准数据集上显著优于基线方法。
61
认知无线电中的频谱资源博弈管理与功率控制仿真
本文围绕认知无线电技术展开,介绍其概念、发展历程与潜在地位。探讨频谱资源的博弈分配方法,包括静态与动态分配策略。分析频谱共享和动态频谱接入的原理、技术及博弈策略。构建非合作博弈模型,应用纳什均衡解决频谱分配问题。还进行仿真,分析结果并优化频谱管理,保障服务质量与控制功率。
weixin_42668301
960
傅里叶域自适应(FDA)频谱交换破解语义分割的域迁移难题
本文系统介绍傅里叶域自适应(FDA)方法,旨在解决无监督域自适应下的语义分割域迁移问题。FDA通过交换源域与目标域图像的低频振幅谱、保持源域相位谱,实现轻量级风格迁移,无需额外可训练参数。文中详述其三步实现流程(FFT、低频掩码交换、iFFT)、在分割训练中的集成方式(含熵最小化损失)、进阶策略(多频带迁移、自监督伪标签),并在GTA5→Cityscapes等基准上验证其高效性与稳定性。
otter_ai
128
CVPR 2025前沿速递:自适应卷积+遥感pansharpening,直接拿下CVPR
本文围绕CVPR自适应方向展开,回顾DAFormer在语义分割无监督域自适应的成果,指出围绕其深入研究仍有创新空间。并精选3篇CVPR有自适应方向的论文,分别介绍了它们在遥感图像pansharpening和语义分割任务中的方法、创新点及论文链接。
CVPR顶会精选
864
自适应退避算法在Ad Hoc网络中的应用与性能分析
无线Ad Hoc网络中,节点动态变化和资源有限影响数据传输。本文探讨基于生命周期约束的自适应退避算法,介绍其理论、设计与实现,对比传统算法优势。还阐述网络资源优化管理策略及该算法的应用,通过MATLAB仿真评估性能并给出优化建议。
veritascxy
1192
从像素到频谱:FreMIM如何用频域重建革新医学图像分割预训练
FreMIM是一种面向医学图像分割的自监督预训练框架,核心创新在于将遮罩图像建模(MIM)从像素域迁移至频域,借助傅里叶变换引导模型联合重建高低频谱。其关键技术包括前景感知遮罩、双边聚合解码器、多阶段频域监督及焦点频率损失,显著提升特征表达能力与数据效率,在BraTS、ISIC等数据集上验证了优于MAE的分割性能。
您的账号已被封禁
444
虚拟专题知识图谱 | 频谱知识图谱面向未来频谱管理的智能引擎
本文提出频谱知识图谱的概念,将其应用频谱管理,构建面向未来智能管理的框架。知识图谱能表征频谱领域的复杂语义,支持自动化、智能化的频谱管理,提升管理效率和精准度。通过实例展示了频谱知识图谱在用频推荐中的应用,证明其在知识引导方面的积极作用,并展望了智能频谱管理交互应用的潜力。
唐名威
2364
时分双工TDD技术在无线通信中的应用解析
本文详细介绍了时分双工(TDD)技术的工作原理及其在5G网络中的核心作用。TDD通过时间分割实现上下行通信,具备灵活配置、节省频谱资源和降低成本等优势。文章还探讨了其在大规模MIMO、低时延业务和网络部署方面的应用价值,并展望了未来智能化调度与全双工发展的趋势。
硬核科技
1730
[论文速读]CVPR 2020 在傅里叶域自适应实现语义分割 Fourier Domain Adaptation
文章介绍了一种利用傅里叶变换进行简单无监督域适应的方法,通过交换源与目标数据的低频部分来缩小分布差距,应用于存在标注数据差距的语义分割任务中,取得与复杂方法相当的先进性能。核心在于无需训练的频谱映射和自适应权重设计。
Phoenixtree_DongZhao
5438
自组织神经网络在语音识别中的创新应用
本文介绍自组织神经网络在语音识别中的应用。先阐述语音识别现状及自组织神经网络概念,接着说明其原理与特点,然后介绍传统应用,重点讲述复杂环境、小样本、语音情感识别等创新应用,还列举智能家居、智能客服案例,最后总结优势并展望未来发展。
fanxbl957
836
YOLO26涨点改进| TGRS 2026 | 独家创新首发、注意力改进篇| 引入CSSCA频谱-空间交叉注意力,含多种创新改进,小目标检测、图像分割、高光谱图像分类、语义分割任务任务涨点
本文提出CSSCA频谱-空间交叉注意力模块,以中心像素为先验引导光谱与空间维度的联合建模,实现特征自适应加权与精细化增强。该模块可无缝嵌入YOLO26,在小目标检测、高光谱图像分类、语义分割等任务中显著涨点,兼具高性能与低计算开销,已发表于IEEE TGRS 2026。
Ai缝合怪 博士
234
FDA基于傅里叶频谱交换的无监督语义分割域适应
FDA是一种基于傅里叶变换的无监督语义分割域适应方法,通过交换源域与目标域图像的低频振幅谱、保留相位谱实现风格迁移,核心参数β控制频谱交换范围。方法引入多频带迁移(MBT)策略与集成伪标签自训练机制,结合交叉熵损失、熵最小化和自监督优化,在GTA5→Cityscapes任务中达到SOTA性能,显著提升对光照与天气变化的鲁棒性。
weixin_30254435
403
关于聚合网络和日志分割的搭建
本文围绕聚合网络和日志分割展开。聚合网络结合客户端 - 服务器与 P2P 优点,有多种应用场景和技术。日志分割可提高日志管理和分析效率。实验对聚合网络的 Teaming 模式和日志分割的 logrotate 工具进行配置,结果显示两者结合为大型系统运维管理提供有力支持。
放情
1072
即插即用系列 | CVPR 2024 FADC频域自适应空洞卷积,完美解决语义分割“网格效应”
CVPR 2024论文FADC提出频率自适应空洞卷积,通过动态预测空间膨胀率图,在频域视角下解决语义分割中的网格效应与高频细节丢失问题。方法包含三大核心技术FADC实现采样率自适应、AdaKern进行卷积核高低频权重动态重组、FreqSelect完成特征级频率选择性重加权。模块即插即用,兼容DeepLabV3+等主流框架,在ADE20K上mIoU提升1.2%-1.8%。
AI即插即用
2065
28、频谱感知实验与脑部图像分割技术研究
本文围绕频谱感知实验与脑部图像分割技术展开研究。频谱感知实验利用开源软件和无线电搭建平台,检测主用户频谱占用情况。脑部图像分割技术采用Harris Hawks优化的多级阈值分割方法。两者虽应用领域不同,但原理相似,均涉及数据处理与分析,且都可优化阈值。实验表明该分割方法性能良好,未来可进一步优化和融合。
60