关键词:
光学图像处理
目标检测
RK3588
RT-DETR
YOLOv8
摘要:
光学图像处理包含了三大基础任务:目标检测,图像分割,图像分类,一系列下游衍生任务如目标跟踪,目标计数等,主要应用于遥感图像,工业图像缺陷检测,无人机图像,自动驾驶,医疗影像等领域。不过光学图像所蕴含的特征极为丰富多样,部分光学图像具有高光谱信息,部分图像具有微小目标,还有部分图像的背景较为复杂,因此当前目标检测在精度和速度方面均面临严峻挑战,亟待提升。基于这些瓶颈,本文的工作重点是图像处理的实现目标检测精度与速度优化。
本文围绕复杂场景下的目标检测模型架构创新展开系统性探究,重点突破方向包括无人机航拍图像、自动驾驶视觉感知和遥感影像分析三大应用场景。针对现有模型在特征提取能力方面的局限性,将提出多层次架构的优化方案来适配各个场景。具体研究内容如下:
(1)本研究基于YOLOv8模型设计了小目标可变形动态采样尺度序列模型(SDDSS),来处理多层特征融合时不同尺度目标的语义信息不匹配问题。通过采用混合渐进的思想来重新设计小目标检测头,用来缓解非相邻层之间的特征不匹配问题。又引入了动态采样模块方法,这样可以更好融合特征,还用了可变形卷积来扩大感受野和改进特征表达能力。并且模型中用的最小点距离交并比(MPDIoU)损失函数可以让预测框和真实框的大小同时调整,这样检测更加准确。该模型在VisDrone数据集和Udacity自动驾驶数据集上进行了测试。实验结果显示,mAP50指标分别达到了35.8%和82.0%,相比基准模型分别提高了2.7%和2.5%。这些结果说明了设计的模型确实能缓解小目标检测的困难,还让自动驾驶的检测能力变得更好。另外,构建了基于PySQT框架的可视化分析平台,实现了检测模型与目标跟踪等下游任务的协同验证。
(2)为了减少RT-DETR网络中Transformer架构的计算冗余并改善特征表示,研究设计了一种可学习的倒置残差级联分组小目标检测Transformer模型(LIS-DETR)。该模型提出了独特的基于倒置残差级联分组移动块的骨干网络架构。又为增强全局上下文关系,在Transformer层中设计了自适应局部增强块,并加入了一个小目标检测层以进一步提升模型性能。还引入了内置SIoU损失函数,来提高模型的收敛速度。在实验评估中,LIS-DETR模型在VisDrone数据集上的mAP50准确率相比基准模型提高了3.1%;在处理过的SODA10m数据集上,mAP50准确率提高了1.9%。这些实验结果证明LIS-DETR模型在多个数据集上均取得了显著的性能提升,表明该模型具有强大的泛化能力。
(3)为了将模型在RK3588芯片上成功部署以调用NPU的能力,研究设计了轻量级优化快速检测(GSEWS)模型。该模型设计了Ghost-Highlevel模块,更好地融合了全文的特征,为了后续模型能够顺利剪枝,提出了适配剪枝的SlimNeck架构,提升了计算效率。为对图片特征进行精细化处理,还设计了高效快速检测头。并且还引入了Wise-ShapeIoU损失函数以获得更高的精度和收敛能力。并将其在HRRSD数据集上训练得到的模型进行剪枝和知识蒸馏操作,最终的mAP50精度达到了0.941,FPS也提升到了247.7。将其部署在香橙派5 PLUS上实现了实时检测,平均帧率达到了31帧,充分调用多线程后最高帧率达到了88帧。实验结果表明该模型有效实现了轻量化,对于硬件部署后的后续应用展现了充分潜力。