关键词:
目标跟踪
稀疏化
嵌套跟踪
自提示算法
扩散模型
摘要:
目标跟踪以初始帧中的目标信息为参考对后续视频序列中的目标进行准确识别定位,作为计算机视觉领域根本性基础任务具有重要的理论研究意义和工程应用价值,在人机交互、视觉监控、自动驾驶等多个领域均展现出广泛的应用前景。近年来,基于注意力机制的跟踪算法已成为目标跟踪领域的主流算法并处于领先水平。该机制通过整合全局上下文信息,增强了特征表示能力,显著提升模型在复杂场景下的精度和鲁棒性。然而,该类算法在实际应用中仍面临诸多局限性。首先,基于注意力机制的跟踪算法具有高昂的内存占用与计算复杂度,极大地限制了模型在资源受限设备的应用场景中的部署。此外,较慢的推理速度限制了该类算法在实时性要求严苛场景下的应用。同时,特定场景数据集的稀疏性也对该类算法的应用构成了挑战。再者,近年来时空信息结合的跟踪算法的性能提升往往依赖于训练与推理过程中更长时序帧的输入,这进一步加剧了跟踪推理速度的下降,难以满足实际应用对延时的严格要求。
鉴此,针对上述局限,本文通过文献调研与理论探索,进行稀疏表达与表示增强的目标跟踪算法设计并实现研究,以期在显著提升目标跟踪的实时性能的同时增强注意力模型的特征表示能力,确保跟踪算法的高精度与鲁棒性。据此,本文的核心研究内容概括如下:
1、基于通用场景下的注意力稀疏的跟踪算法:针对基于双分支孪生网络在结合注意力机制时推理速度慢的问题,本文提出了一种具有线性复杂度的信息弥散的图跟踪网络,与直接将稀疏化的注意力机制引入跟踪网络的算法不同,本文通过构建图网络进行特征节点间信息的灵活传递,对现有归一化指数激活函数进行二项式线性逼近,从而有效降低计算复杂度的同时将信息扩散在整个特征图中,最终实现了跟踪精度与推理速度的提升,为目标跟踪任务提供了一种高效且准确的线性化设计方案。
2、基于通用场景下的训练稀疏的跟踪算法:针对上述设计的具有线性注意力的跟踪器显著提升了推理速度,但其精度与鲁棒性仍有不足的问题,分析其原因为线性化单跟踪器存在性能上限,因此本文从单跟踪器的注意力稀疏拓展到多跟踪器的训练稀疏,搭建了内外跟踪器嵌套模型架构,并精心设计了峰值蒸馏与双边回归策略来处理单跟踪器在推理阶段由相似干扰所导致的多个响应峰值。首先通过峰值蒸馏技术精确提取出与目标位置相对应的候选点;随后利用在线学习的内跟踪器对这些候选点进行进一步采样与分析,以确定最终的跟踪目标。值得指出的是,此嵌套模型中的内外跟踪器均具备高度的模块化特性,可灵活嵌入其他已训练好的模型,从而构成新的跟踪算法。该算法在几乎不牺牲跟踪推理速度的前提下,显著提升了模型的精度与鲁棒性,弥补了线性化设计的不足。
3、基于数据稀疏场景下的无人机跟踪算法:鉴于在有限数据量场景下,常规稀疏化算法虽然能一定程度提升跟踪算法的推理速度,但往往会牺牲模型精度的问题,本文提出了基于自提示的跟踪算法,该模型在无需依赖额外数据集的前提下,展现出对数据有限的无人机场景的更优的适应能力,其通过设计的一种自提示策略,能识别并提取特征中最为显著的部分作为提示词,并嵌入到输入的特征中作为指导信息。采用这种方式,跟踪算法在推理阶段能够自适应地针对无人机目标进行高精度跟踪,同时保持极快的推理速度,实现了跟踪精度与速度的平衡。
4、基于时空信息结合的稀疏化跟踪算法:鉴于时空信息的有效融合能够显著提升跟踪算法的准确性,且时序信息引入的量级直接决定着模型的性能,而由此要求在训练与推理阶段纳入更多的图像源,从而不可避免地加剧了跟踪算法的推理负担,限制了其在实际应用场景中的可行性的挑战,本文提出了一种基于扩散模型的跟踪算法,该算法在仅保留两个时序帧的条件下,通过扩散模型在训练阶段引入的加噪-解噪过程与在推理阶段实现的采样递推过程,增强了模型在干扰场景下的鲁棒性,实现了精度与实时性的双重提升。
综上所述,本文基于跟踪精度与速度的平衡,深入地探索了稀疏表达与表示增强的目标跟踪算法。针对跟踪速度的问题,提出了图网络线性注意力机制以替代传统注意力,解决了推理速度下降的问题;从训练稀疏化的视角出发,设计了即插即用的内外嵌套跟踪方案,不仅解决了线性注意力精度有限的难题,还提高了算法的可迁移性;针对有限数据下的无人机场景,提出了一种自提示跟踪器,该跟踪器能在无需额外数据集的情况下,实现对数据稀疏场景的适应能力;在时空信息结合的稀疏化方面,本文创新性地将扩散模型的推理机制嵌入到现有跟踪算法中,实现了以较小的模型参数增量换取精度的显著提升。通过实验验证,所提出的稀疏表达与表示增强跟踪算法能有效解决推理精度与速度的平衡问题,在公开数据集上达领先水平。