关键词:
小样本目标检测
多尺度特征融合
可形变卷积
注意力机制
摘要:
传统目标检测算法通常依赖海量标注数据以实现高精度,但在军事侦查、濒危物种监测和罕见病诊断等领域,图像数据极其稀缺,且标注成本高,导致传统方法在这些场景下表现不佳。因此,研究者们开始探索小样本目标检测技术,降低对大规模数据的依赖并减少标注成本。在小样本目标检测任务中,面临两个关键问题:一方面,由于目标尺度变化大、外观差异明显,特征提取往往不足,难以捕捉目标的细微信息,另一方面,新类别训练样本极为有限,导致模型在新类特征识别、全局特征表达和特征对齐方面表现不佳,进而严重影响检测性能。本文围绕上述问题提出两种改进算法。
(1)针对目标尺度变化大、外观差异明显问题,提出基于可形变卷积与多尺度平衡特征融合的小样本目标检测算法(Deformable Convolution and Multi-scale Balanced Feature Fusion-based Few-Shot Object Detection,DMB-FSOD),该方法基于迁移学习框架。首先采用基于分组卷积架构的Res Ne Xt-101作为特征提取网络,以提升对复杂图像特征的表达能力,其次,通过引入可形变卷积核,增强模型对目标形态变化的适应力,然后,设计BDFPN多尺度特征融合网络,在FPN中利用Drop Block正则化结合BFP模块实现各尺度特征的均衡融合,最后,采用主要样本注意机制(PISA)对样本进行加权排序,重点优化对检测性能贡献较大的样本,从而提高模型的泛化能力和检测精度。实验结果表明,在PASCAL VOC与MS COCO数据集上,相较于经典的小样本目标检测模型FSCE,DMB-FSOD在Novel Set 1–3条件下精度提升达到2.5%–11.9%,且在10-shot和30-shot场景下,m AP分别提高了1.2%和2.4%。
(2)针对新类特征识别和特征对齐方面表现不佳问题,提出融合全局注意力机制与可变形ROI池化的小样本目标检测算法(Global Attention and Deformable Ro I Pooling-based Few-Shot Object Detection,GAD-FSOD),该方法基于元学习框架Meta-RCNN。首先将全局注意力模块嵌入到Res Net-101骨干网络与RPN中,通过动态建模全局特征,增强模型对关键信息的提取并优化候选框生成质量,同时抑制背景干扰。此外,通过可变形ROI池化模块动态调整采样位置,实现更精细的特征对齐与提取,从而进一步提高目标定位的准确性和稳定性。实验结果显示,在PASCAL VOC数据集上,对比模型FSCE,GAD-FSOD在Novel Set 1中的检测精度提升介于1.7%–14.4%,在Set 2中多数情况下获得显著改进,最高提升达到11.8%,而在Set 3中表现稳定,提升最高为2.9%。