关键词:
车辆检测
复杂交通场景
多尺度特征融合
频域信息
复合颈部结构
摘要:
智能车辆的环境感知技术是实现其自主决策的核心基础,涉及多学科交叉与技术融合。当前研究已取得显著进展,但仍面临多维度的技术挑战。智能车辆的视觉方案是实现环境感知的核心技术路径之一,视觉目标检测技术在常规场景下已趋近成熟,但极端环境适应性、小目标检测能力及实时性约束仍是核心挑战。
针对现实交通场景复杂多变、车辆间遮挡严重、检测目标尺度分布跨度广等问题,致力于提升车辆目标检测和定位精度,本文分别从扩大模型感受野、多尺度特征融合、结合频域信息抑制干扰、缓解信息传播损失、增强特征提取性能等方面进行了模型改进,基于开源的交通场景数据进行了验证和泛化实验,并对检测效果进行可视化分析。具体研究内容如下:
(1)针对交通场景小目标、遮挡目标检测和定位精度低的问题,以及检测效果易受对比度变化及图像噪声影响,提出一种改进的车辆目标检测模型YOLO-CDC,并与YOLOv8n轻量模型进行对标:
首先,提出了一种结合Transformer结构全局特征提取能力的多分支模块C2Former,并设计了重感知的门控线性单元优化Transformer分支非线性表达能力,实现高质量全局信息聚合;
其次,设计了多尺度特征融合分支整合特征:结合可变形卷积和SPDConv模块提取P2层高分辨率信息,捕获更精细的边缘特征;设计引入大核卷积及频域特征的CSP_FRM模块用以平衡计算负担;
最后,构建一种特征增强模块:采用大核卷积与条状卷积扩大感受野补充上下文信息,结合非跨步卷积补充局部细粒度信息;采用了一种多频单通道注意力形式与通道特征结合以及设计一种耦合空间和频域信息的注意力机制抑制图像噪声和背景干扰。
对比YOLOv8n模型,YOLO-CDC模型在UA-DETRAC数据集上召回率和m AP50-95指标分别提高2.8%和3.6%,在SODA10M数据集上召回率和m AP50-95指标分别提高3.1%和4.1%,验证了模型在现实交通检测场景下的检测和定位精度,且对远距离、密集目标,以及路侧、遮挡、弱光和局部过曝光场景中具有更优质的检测效果。
(2)针对交通场景困难检测目标特征提取不足的问题,提出一种改进的车辆目标检测模型YOLO-NPDL,并与YOLOv8s精度模型进行对标:
首先,为减少逐层信息瓶颈造成沿网络深度方向的信息丢失,提出一种具有复合主干的颈部结构:设计基于三重尺度特征融合的辅助检测分支,增强特征提取性能;精简颈部结构中的上采样路径,减少深度方向上的信息丢失;将辅助检测分支与颈部主干网络中的信息加权跳跃融合,提高模型表征能力;
其次,引入结构重参数化模块Rep Block,在训练过程中采用多分支结构提高模型特征提取性能;添加P2检测层捕捉更多小目标细节特征,丰富网络内小目标的特征信息流;采用Dynamic Head检测头,将尺度、空间和任务自注意力机制融合到统一框架中,提高检测性能;
最后,采用基于层自适应幅值得剪枝算法进行模型轻量化改进,提升实时检测性能。
对比YOLOv8s模型,YOLO-NPDL模型在UA-DETRAC数据集上召回率和m AP50-95指标分别提高0.3%和2.7%,在SODA10M数据集上召回率和m AP50-95指标分别提高5.2%和4.4%,验证了模型在现实交通检测场景下的检测和定位精度,且在雨天、夜间等检测场景无明显误检、漏检情况,检测性能更加稳定。