关键词:
多目标跟踪
目标重识别
跨模态
重排序
摘要:
随着人工智能技术的飞速发展和智慧城市建设的深入推进,智能监控系统在社会安全、交通管理、工业生产等领域发挥着越来越重要的作用。目标跟踪与重识别作为智能监控领域的核心技术,能够在大规模监控网络中实现对特定目标的精准定位和检索,对于提升监控系统的智能化水平具有重大意义。然而,现实场景中目标外观和运动模式的多变性、复杂背景的干扰、摄像机风格和位置的差异等因素,对系统的定位与识别性能提出了严峻挑战。
本文聚焦于目标跟踪与重识别领域中的关键技术,分别从启发式离线框架设计、高效跨模态训练与推理、以及辅助信息挖掘和重排序三个方面进行了深入研究,提高了目标跟踪和重识别模型的准确性和鲁棒性。本文的主要研究内容包括:
1.提出了一种基于启发式策略的混合多目标跟踪框架,从外观特征提取与维护、运动信息估计与相机运动补偿、匹配损失与算法等多个方面,对经典跟踪算法DeepSORT进行优化,提升了跟踪算法的准确性。同时针对关联丢失问题,设计了不依赖视觉信息的轨迹连接性预测模块,在不明显增加推理成本的前提下,提升了跟踪的稳定性。针对检测丢失问题,提出了一种基于高斯过程回归的插值策略,增强了非线性运动场景下的插值准确性,并为下游任务提供了更稳定的目标轨迹。在MOT17、MOT20、DanceTrack、KITTI等多目标跟踪数据集上的实验,证明了所提出的框架和优化方法的有效性和鲁棒性。
2.提出了一种层级启发式多目标跟踪框架,使用递增的轨迹间隔阈值作为层级划分基准,所有层级使用相同的关联算法设计和阈值,构建了统一的离线跟踪框架,提升了目标帧间的关联稳定性。同时针对多目标跟踪算法中存在的,即目标尺寸不一致、相机运动不一致和层级信息不一致三种问题,通过改进关联算法分别提出了相应的解决策略。在MOT17、DanceTrack、KITTI和VisDrone等多目标跟踪数据集上的实验,验证了所提框架的灵活性和鲁棒性。
3.提出了一种文本多目标跟踪框架,能够根据自然语言描述跟踪特定目标。具体地,首先设计了一种级联跨模态跟踪框架,通过将该任务解耦为目标跟踪和跨模态轨迹筛选两个子任务,避免模型优化过程中的任务竞争问题,并降低训练和推理计算成本;然后提出了一种跨模态轨迹理解模块实现基于文本描述的轨迹筛选,并研究了三种基于文本信息指导的视觉特征提取策略,从而缓解跨模态“一对多模糊匹配”问题对模型训练和推理的影响。在多个数据集上的实验证明,所提出的框架不仅取得了最优的跨模态跟踪性能,还降低了模型训练和推理成本,提升了其在实际应用场景中的适用性。
4.构建了大规模像素级对齐的“可见光-红外”跨模态目标重识别数据集,并设计了一种基于部分共享双分支网络的时域跨模态重识别基线框架。同时为了充分利用单摄像机样本,提出了一种基于动态课程系数的联合学习框架;在推理阶段,提出了一种交叉时域操作来建模样本间细粒度时域相关性信息,优化k互近邻重排序算法。实验结果表明,所提出的方法缓解了样本模态差异造成的干扰。
5.提出了一种基于粗略文本描述辅助的跨模态目标重识别框架,能够通过文本信息补充样本中缺失的模态特征,提高模型的检索能力。具体地,为了解耦目标中的判别性特征,提出了一种双分支解耦网络,实现目标纹理特征和颜色特征的解耦和聚合。训练阶段,提出了一种基于文本IOU的正则策略来稳定颜色编码器的优化过程。推理阶段,提出了“约束搜索”、“划分搜索”和“扩展搜索”三种近邻搜索策略,缓解近邻样本中的模态偏差问题。在SYSU-MM01、RegDB和LLCM等数据集上的实验,验证了所提出的文本辅助策略和跨模态重排序方法的有效性。