关键词:
图像分割
神经网络
伪装目标检测
Segment Anything Model
Vision Transformer
Mamba
摘要:
计算机视觉在深度学习中扮演了重要的角色,通过模拟人的视觉,研究大自然中物体与背景之间的关联性,并探究视觉机制的原理。与此同时,伪装目标检测是计算机视觉中更细致的研究方向,伪装目标检测任务对目标边界的准确识别有着更苛刻的要求,并且随着有监督学习的发展,半监督和弱监督伪装目标检测也随之被提出。目前这两个任务的核心挑战在于如何有效结合弱标签与神经网络,以生成更精准的目标分割结果,以及如何在有限标注数据的条件下提升伪装目标检测的泛化能力。为此,本文提出了基于Vision Transformer的Segment Anything Model弱监督伪装目标检测方法和基于Mamba的Segment Anything Model半监督伪装目标检测方法。这两种方法分别增强了弱标签的提示作用和半监督方法的表征能力,提高了图像特征的表达效果,使模型能够更精准地匹配目标标签。本文的主要创新点如下:
(1)弱标签伪装目标检测的标签存在提示信息不足的问题,针对这个问题,本文提出了一种基于Vision Transformer的Segment Anything Model弱监督伪装目标检测方法。该方法利用弱标签引导Segment Anything Model模型生成伪标签,并将其作为监督信号进行模型训练。为了弥补提示信息的不足,本文在Vision Transformer的框架中设计了一种多层次融合注意力机制,将不同维度的特征映射为深层次语义特征,从而充分挖掘图像信息,提升分割性能。
(2)为了解决半监督伪装目标检测中样本无法提供有效泛化信息的问题,本文提出了一种基于Mamba的Segment Anything Model半监督伪装目标检测方法。针对半监督方法的泛化能力不足,本文利用SAM增强模型的泛化能力,并提出了一种分离式Mamba机制,将前景和背景信息进行分离,再通过Segment Anything Model对提示信息不足的模型进行特征修正。本文首次在伪装目标检测任务中引入Mamba,并通过Segment Anything Model与Mamba的结合,大幅提升了模型的泛化能力和检测性能。
本文在三个著名的伪装目标检测数据库上和最先进的伪装目标检测方法进行了比较,实验结果表明:本文提出的两个方法具有优异的图像分割性能,不仅解决了弱监督和半监督在伪装任务上的局限性,还能够使得弱监督和半监督方法实现接近于有监督的性能,并且提升了模型的特征提取能力,生成更准确的分割结果。