关键词:
目标跟踪
自顶向下注意力
曼巴
多模态目标跟踪
摘要:
视觉目标跟踪是人工智能与计算机视觉领域的重要基础课题,近年来在先进算法设计思想与大规模高质量的数据集支持的驱动下取得了显著进展。视觉目标跟踪研究主要聚焦于RGB视频数据的处理,但这种传统方式在复杂环境中容易受到光照变化、遮挡等干扰,难以实现稳定跟踪。为应对这一挑战,多模态跟踪算法通过引入辅助数据(如深度、热红外和事件等)显著提升算法的鲁棒性和适应性。受高性能RGB跟踪算法和提示学习的启发,当前多模态跟踪模型通过RGB预训练模型高效融合多模态信息,在复杂场景中展现出更优的性能。
然而,要想实现高性能鲁棒的多模态目标跟踪,注意力机制带来了不小的挑战。当前的多模态跟踪器依赖自下而上的注意力机制,在学习目标特征过程中忽略了自上而下的跨模态引导,导致模型学到的目标特征的判别能力不足。此外,为实现时空建模,现有算法通常引入额外的注意力模块,但注意力的高二次复杂度使得跟踪器在时空建模时难以同时利用其增强模型跨模态特征交互的能力。
针对上述挑战,本文围绕自顶向下的跨模态引导与时空曼巴框架,深入研究多模态跟踪问题,并提出了两种创新性解决方案。主要研究内容如下:
(1)为解决多模态跟踪器过于依赖自底向上的注意力导致学到的目标特征的判别能力不足这一问题,本文提出了一种新颖的RGB-T多模态跟踪器,称为基于自顶向下跨模态引导的RGB-T跟踪器(Top-Down Cross-Modal Guidance for Robust RGB-T Tracking,TGTrack),它设计了一个自顶向下跨模态引导机制,以两个步骤学习目标特征。在步骤1内,本文的TGTrack通过多模态编码器-解码器和先验向量有效生成自上而下的跨模态引导信号。在步骤2中,这些信号通过跨模态编码器的注意力层进行传递和集成,以提高模型对目标特征的判别能力。此外,在步骤2中,本文引入了一个基于注意力驱动的时空更新器来更新具有判别性的目标特征。通过跨帧的注意力引导,它有效地消除了搜索区域内的无关特征。因此,TGTrack可以有效避免复杂的多模态融合模块,实现稳健的多模态RGB-T跟踪。该算法在三种流行的多模态目标跟踪公开数据集(即Las He R,RGBT234和RGBT210)达到了先进的性能。
(2)为解决注意力机制高计算复杂度对时空视觉线索与跨模态交互统一建模的限制,本文提出了基于曼巴的跨模态交互与时空建模统一的多模态跟踪算法(Unifying Cross-Modal Interaction and Spatio-Temporal Modeling for Multi-Modal Tracking via Mamba,UBATrack)。UBATrack设计了跨模态时空曼巴架构,实现跨模态交互与时空视觉线索的统一建模。针对曼巴在多模态特征建模中的不稳定性问题,本文引入多模态频域变换块,通过特定特征值进行通道建模。在此框架下,无需完全微调RGB跟踪器模型,仅需训练跨模态时空曼巴模块即可对连续跨模态上下文进行建模。UBATrack利用曼巴实现令牌建模,并通过多模态频域变换增强通道建模,使跟踪器能获取更具判别力的视觉线索,显著提升跟踪鲁棒性。此外,UBATrack引入多模态融合多层感知机,帮助跟踪器在复杂跨模态信息中高效融合搜索区域特征。在RGB-T、RGB-D和RGB-E跟踪的6个公开数据集(即Las He R,RGBT234,RGBT210,Depth Track,VOT-RGBD22和Vis Event)上,UBATrack均取得了领先的性能表现。