关键词:
自动驾驶
深度学习
目标检测
注意力机制
特征融合
摘要:
在自动驾驶、无人机和机器人等领域,目标检测是实现环境感知和自主决策的关键技术。然而,基于单一模态数据的目标检测算法难以应对不同场景的需求,无法保证检测系统的准确性和稳定性,而利用不同模态数据进行目标检测,共同提供环境中信息,是目标检测领域的研究趋势。本文以深度学习理论为框架,针对道路目标检测中,对于小目标检测精度低的问题,分别以YOLOv11和Point Pillars算法为基础,采用注意力机制和特征融合算法融合到特征提取网络中,提升算法在交通应用场景中的检测精度。本文研究内容如下:
(1)在基于图像的目标检测中,对于一些远景目标,由于其尺度小、特征弱的特点,卷积神经网络往往需要将多个卷积层级联,才能逐步捕捉这种远距离依赖,这导致信息传递不够直接和有效,另外,CNN操作也可能会丢失一些位置信息。针对这个问题,提出了基于Transformer结构的特征提取网络,该模型将YOLOv11特征提取网络中P3-P5卷积结构替换成级联组注意力结构,通过将图像序列先通过深度可分离卷积先进行分组预处理,再将分组后的序列输入至级联注意力网络,计算分配注意力权重,提升模型特征提取能力。其次,针对改进特征提取网络在每一层提取到过多的初级特征的问题,设计了基于SEAM注意力机制的检测头,直接利用提取到的高质量特征。改进后的检测头为每个尺度的特征图分配一个权重,对不同尺度特征图进行加权并融合,减少冗余特征的干扰,增强模型的判别力和定位精度。实验结果表明,相对于YOLOv11模型,改进模型m AP@50值提升了约2.85%,m AP@50-95的值提升约4.68%。
(2)针对光照条件不理想或者目标物体被遮挡等复杂交通环境中,基于图像的目标检测算法的检测精度下降等问题。采用基于点云数据的目标检测算法Point Pillars进行场景中的车辆行人检测。针对Point Pillars算法中的二维CNN提取伪图像特征时,特征提取能力弱的问题。设计了一种基于CA注意力机制的特征提取模块,通过建模水平和垂直方向的特征信息,使得模型可以捕捉到跨越整个特征图的特征依赖关系,增强了特征提取能力。另外,还设计了一种基于自适应特征融合的特征金字塔结构,通过将不同特征层的特征进行对齐,对于对齐后的特征图使用卷积操作计算每个特征图的注意力权重并进行归一化处理,使用计算得到的权重对齐后的特征图进行加权融合,得到最终的融合特征图。实验结果表明,相对于基础的Point Pillars模型,改进后的模型对于物体的检测精度有着明显的提升,在easy检测难度下分别平均提升了2.59%,2.26%,5.55%,在moderate检测难度下分别提升了4.99%,6.47%,4.78%,在hard检测难度下分别提升了4.7%,3.5%,5.48%。
图[31]表[11]参[78]