关键词:
遥感图像目标检测
YOLO
注意力机制
特征融合
知识蒸馏
摘要:
遥感图像目标检测在环境监测、国防安全与灾害预警等领域具有重要应用价值。然而,由于遥感图像普遍存在复杂背景干扰、目标多尺度差异明显、方向任意分布以及小目标密集排列等特性,现有通用目标检测算法难以实现检测精度、轻量化部署以及实时性需求之间的平衡。基于上述问题,本文围绕遥感图像水平与旋转目标检测任务的难点,对基于YOLOv8的轻量化检测算法展开研究,主要工作内容如下:
(1)针对遥感图像水平目标检测任务中的复杂背景下小目标特征易丢失及多尺度特征融合效率低的问题,提出基于注意力特征融合的遥感图像水平目标检测算法(YOLO-MBF)。首先,该算法通过设计基于多头自注意力机制和通道注意力机制的多尺度变压器特征提取模块(Cross Stage Partial_Multiscale Transformer Block,CSP_MTB),增强模型对全局上下文信息的感知能力;此外,使用自适应大核选择注意力机制(Large Selective Kernel attention,LSK-attention)动态调整特征提取网络的感受野来引导模型训练,加强模型对不同目标所需的空间背景上下文信息差异的关注;最后,构建了一个轻量级的多分支特征加权金字塔网络(Efficient Multi-Branch-Bi-directional Feature Pyramid Network,EMBFPN),以增加多尺度特征之间的交互从而改善模型对不同层级特征的有效融合。在NWPU VHR-10数据集上的实验结果表明,YOLO-MBF较基线模型在参数量减少32%,每秒检测帧数提高8%的情况下,取得了2.9个百分点的m AP提升。
(2)针对旋转目标边界模糊与定位偏差问题,提出基于边缘信息增强和任务动态对齐的旋转目标检测算法(YOLO-ERD)。首先,该算法设计了一个边缘信息增强下采样模块(Edge Information Enhancement Stem,EIEStem),该模块通过结合边缘检测(Sobel)算子与多尺度空间池化技术强化了边缘特征以及空间信息的提取;其次,设计了任务动态对齐检测头(Task Dynamic Align Detection Head,TDAD-Head),该检测头通过共享卷积增加分类与回归任务的交互,并利用任务拆解机制和可变形卷积实现动态特征选择与任务对齐,从而缓解了分类与回归任务的空间错位;最后,采用四点距离旋转损失(Four Points Distance Rotation Intersection over Union,FPDIo U)优化边界框回归函数,提升旋转框的定位精度。在DOTA数据集上的实验结果表明,YOLO-ERD的m AP@0.5达到72.9%,FPS达到33,优于目前主流的通用旋转目标检测算法,证明了该算法的有效性与竞争性。
(3)为了进一步提升模型精度并满足轻量化需求,提出基于注意力特征蒸馏的优化方法(AFKD)。该方法通过通道-空间注意力模块(Channel-Spatial Attention Module,CSAM)来进一步突出师生网络的二维特征图之间的细节差异,从而获得蒸馏特征,并使用全局语义信息模块(Global Context Block,Gc Block)来重建像素间长程依赖关系,以弥补蒸馏特征的全局信息损失。通过这样的设计能够充分利用教师和学生网络的特征差异,并保证全局信息的完整性,从而提高蒸馏过程的有效性。在多个数据集和网络架构上的实验结果表明,AFKD方法能够使学生模型的检测精度进一步提升,并且明显优于FGD、LD等蒸馏方法,在保证原算法轻量化优势的前提下,实现了更高的检测精度。
本文在多个遥感数据集上的验证证明了所提算法能够显著提升了复杂场景下多尺度、旋转目标的检测精度与效率,体现了所提算法在遥感图像目标检测领域的优势。