关键词:
特征对齐融合
条状注意力模块
轮廓增强模块
分割一切模型
领域特定提示模块
渐进自提示解码器模块
摘要:
显著性目标检测旨在模拟人类视觉系统处理图像,预测图像中人类感兴趣的区域,从而获取场景中的关键信息。作为一项重要的预处理技术,显著性目标检测被广泛应用于计算机视觉的核心任务中,如目标识别与跟踪、医学图像处理、图像压缩以及基于内容感知的图像编辑等,有力地推动了各领域的发展。
本文基于显著性目标检测这一课题展开了相关关键技术研究。首先,针对常规显著性目标检测方法存在的问题进行了分析,从特征对齐融合、轻量化模块设计等角度出发,设计了相关方法。为提升课题的实际应用价值,在光学遥感图像领域进行了扩展实验。鉴于自然图像与光学遥感图像之间的差异,常规显著性目标检测方法难以在光学遥感图像中达到预期性能。因此,本文进一步针对光学遥感图像显著性目标检测方法展开深入研究,对现有方法受骨干网络泛化能力影响的问题进行了改善。本文主要研究内容及创新总结如下:
(1)针对现有深度学习方法中直接上采样特征并与上一尺度特征融合所导致的语义失调问题,本文提出了一种新颖的对齐融合网络。该网络通过逐步对齐毗连层的特征,实现多尺度语义信息的有效融合。为了更好的缓解失调问题,本文提出了流对齐和可变形对齐两种模块。流对齐模块通过学习特征之间的语义流实现对低尺度的高层特征的空间变换,从而与上一个尺度的低层特征进行融合。然而,这种方式只能学习一个空间位置的一种补偿,对于复杂的失调问题往往是不够的。为此,本文进一步提出了可变形对齐模块,采用可变形卷积替代流对齐模块中的空间变换,提升补偿的多样性。实验结果证明,所提方法能够有效地改善语义失调问题,显著地提升了模型的性能。相较于未对齐的网络,所提出的可变形对齐融合网络在五个标准数据集上平均绝对误差分别实现了20.93%、22.86%、11.43%、17.78%以及11.11%的性能提升。与现有方法的比较进一步证明了方法的有效性。
(2)为了高效地帮助网络获取全局及局部信息,本文提出了轻量化全局上下文建模与局部细节学习的显著性目标检测方法。该方法利用非局部自注意力机制捕捉特征中的全局信息。为提升计算效率并优化网络结构,本文采用条状注意力替代原始非局部自注意力,并结合任务特点,将其嵌入特征融合的中间过程,以实现高层融合特征全局上下文信息的扩增。此外,本文提出了一种简单而有效的轮廓增强模块,以提升特征在关键空间细节上的表达能力,同时学习网络训练阶段需要的注意力图。基于该注意力图,本文进一步提出了一种注意力加权损失函数,使网络在训练阶段更关注于模棱两可及困难的区域,从而增强模型在局部细节上的学习能力。本文方法在仅增加1.4%参数量的情况下,有效实现了网络性能的提升。对比实验表明,本文提出的方法在五个标准数据集上的性能超越了17种先进方法,同时保持了相对较小的参数量和计算复杂度。
(3)针对现有光学遥感图像显著性目标检测方法性能受到骨干网络泛化能力影响的问题,本文将分割一切模型引入光学遥感图像显著性检测领域,提出了一种新颖的渐进自提示分割一切模型。该模型以自学习的方式在骨干网络内部和外部同时产生提示信息,有效地增强了骨干网络在光学遥感图像领域的适应性。在骨干网络内部,本文设计了领域特定提示模块通过块共享和块特定适配器自适应地学习视觉提示,帮助骨干网络补充领域特定的知识。在骨干网络外部,本文提出的渐进自提示解码器模块可以逐步生成分阶段的掩码提示以引导多层特征的融合,以由粗到细地方式产生最终的显著图。此外,本文采用参数高效微调技术进行训练,使整个网络的训练参数仅为773.22K。消融实验证明,相较于基准网络,本文所提方法在三个光学遥感图像数据集上平均绝对误差分别实现了39.60%、36.99%以及28.81%的性能提升。与主流的32种先进方法的对比结果显示,本文方法在总计18项评价指标中,取得了17项最优表现和1项次优表现,达到了目前最先进的水平。