关键词:
目标检测
注意力机制
CNN-Transformer
无锚
检测头
摘要:
近年来,深度学习的迅猛发展为计算机视觉技术带来了突破性进展。在计算机视觉领域,目标检测是一项重要的任务,核心目标是从图像或视频中识别出特定的物体,并准确标定出物体的位置。传统方法在处理复杂图像时往往存在诸多难以简洁处理的问题,如今,通过学习关注图像中的物体间的复杂关系、物体尺度特征和物体语义空间信息等方法,能够高效地将图像中目标物体识别出来。同时,目标检测也是目标追踪、行为识别和图像分割等计算机视觉任务的基础,它不仅可以获取更为丰富的有效信息,而且为自动驾驶、智能监控、医疗影像等领域的广泛应用提供了重要的技术支撑。目标检测作为计算机视觉的关键任务,其重要性日益凸显。
在目标检测领域,多任务学习的特性使得网络模型的精度、速度与复杂度之间的性能权衡成为研究的关键。其中,关于模型颈部的编码-解码器部分和头部的设计,极大的影响着目标检测模型的信息获取和传输能力以及网络的性能表达。因此,本文将围绕优化目标检测网络的特征获取和信息传输展开研究,旨在实现检测模型在精度、推理速度和计算复杂度之间的最优权衡。主要展开如下研究工作:
(1)基于卷积神经网络的目标检测器虽然性能出色,但长期以来存在一些局限性:一方面,缺少全局特征提取能力;另一方面,无法建立物体像素之间的全局依赖关系。尽管Transformer能够弥补这些不足,但是由于它没有结合卷积的优势,导致获取局部特征的细节信息不足,且存在速度缓慢和计算参数量大的问题。此外,特征金字塔网络缺少跨越层之间的信息交互,会降低特征上下文信息的获取。为解决上述问题,本文提出了一个结合Transformer全局和局部特征提取的基于CNN的Anchor-free目标检测网络(GLFTNet),以增强图像中语义信息的全局和局部特征提取。文中设计了两个新的模块和一个新的头部结构分别为分割通道提取特征注意力(SCEFA)模块、聚合特征混合变压器(AFHTrans)模块和特征提取头(FE-Head)。全局和局部提取特征网络有三个创新点:第一,设计了分割通道提取特征注意力模块,以提高模型局部多尺度通道特征的提取,增强了对物体区域的像素辨别力。第二,设计了结合卷积的聚合特征混合变压器模块,以增强模型的全局和局部特征信息的提取,并建立远距离物体像素的依赖关系。它通过多层信息聚合传输的方式,弥补了FPN的不足,并且与原始Transformer结构相比优势明显。第三,设计了特征提取头,以根据不同任务的特征进行全文信息的提取。实验结果表明:本文设计的SCEFA模块、AFHTrans模块和FE-Head结合的GLFTNet,不仅提高了检测网络的准确度,而且有效地平衡了速度和复杂度对网络的影响,验证了本文增强整体网络的全局和局部特征提取方法的有效性。
(2)特征金字塔网络能够逐层级融合不同尺度的特征,从而提升目标检测性能。但是,由于缺少跨越层级间的信息融合交互,使得上下文特征信息获取能力降低,进而制约了目标检测器进一步发展。同时,考虑到卷积神经网络在非局部信息提取方面存在不足,而Transformer对局部信息提取以及优化方面也存在缺陷。为解决上述问题,本文提出了一个基于CNN和Transformer的层级特征信息层级高效收发联合机制(EJRS)的编码-解码的目标检测器,以增强不同层级特征信息的高效交互传输。此检测模型主要由多层级特征信息预强化集成(MFIPI)模块和层级高效收发联合机制(JETM)架构组成。第一,设计了编码器的多层级特征信息预强化集成模块,以预先提高模型对不同尺度空间信息和语义信息的特征提取,增强了特征通道间的依赖关系。第二,设计了结合CNN和Transformer解码器的层级高效收发联合机制架构,以实现将低层级高分辨率空间特征和高层级的语义特征信息流进行跨层级的收集和发送,提高了模型的信息融合交互能力。并强化对不同层级特征信息的局部和全局提取,建立物体像素间的远距离依赖关系。其中,优化后解码器的Transformer与原Transformer相比优势明显。实验结果表明:本文设计的MFIPI和JETM结合的EJRSNet,与原始基准网络相比,不仅显著提升了检测精度和速度,而且验证了本文实现整体网络的多层级信息高效传输方法的有效性。