关键词:
深度度量学习
双曲几何
图像检索
人工智能
计算机视觉
摘要:
深度度量学习通过将数据映射到高维嵌入空间,以学习数据之间的相似性度量,在图像分类、目标识别、图像检索等多个领域得到了广泛应用,并作为众多应用的特征分类基础。当前,大多数深度度量学习方法在欧几里得空间中进行,其方法设计主要依赖余弦度量或欧几里得度量。然而,这类方法主要基于单一角度方向的优化,往往存在模型非最优化、各向同性等问题。此外,现有方法普遍依赖人工标注的类别等价性作为监督信号,该监督方式仅提供了数据间有限的关系视角,难以有效表达类别之间的语义亲和性。因此,基于二元关系的传统度量学习方法在处理复杂的语义层次结构时存在一定局限性,从而制约了该领域的进一步发展。
相比之下,双曲空间由于其恒定的负曲率,具备与欧几里得空间不同的几何特性,尤其适用于建模具有复杂层次或树状结构的数据。近年来,双曲空间在图数据建模、复杂网络分析和自然语言处理等领域取得了显著进展,为深度度量学习提供了新的研究视角。为深入挖掘双曲空间在该领域中的应用潜力,本文围绕以下两个核心问题展开研究:第一,如何在现有欧几里得架构的基础上有效引入双曲几何特性,以克服欧几里得嵌入的局限性;第二,在融合双曲几何与现有架构的基础上,如何进一步发挥其在层次建模方面的优势,挖掘并构建数据中的潜在层次信息,从而持续提升特征嵌入的质量与区分能力。围绕上述问题,本文的主要研究工作和贡献如下:
(1)融合欧式与双曲约束的混合框架:针对如何在现有欧式架构下有效利用双曲空间的优势,本文提出了一种混合框架。首先,将神经网络提取的欧式特征通过指数映射层转换为双曲嵌入,以充分利用双曲空间的几何特性;其次,结合双曲空间的分布先验,将代理点初始化在庞加莱模型的裁剪边界附近,以加速模型收敛并提升学习性能;最后,设计了一种基于双曲度量的正则化损失函数(LHL),以缓解传统余弦度量方法所导致的各向同性问题,从而提升模型在局部邻域内的类间分辨能力。通过在三个公共基准数据集上的对比实验和消融实验,验证了融合双曲空间和LHL损失后,模型相较于传统方法有了明显的性能提升,并且在多个任务中取得了先进的性能。
(2)基于双曲空间的层次排序框架:针对如何有效发现和利用数据间的复杂关系,本文提出了一种层次排序框架,其中包括层次排序生成算法(HRG)和层次排序损失(HRL)两个模块。HRG通过生成排序标签,捕捉细粒度类别间的语义相似性,并相较于传统聚类算法,能够提供更细致的类别关系理解,同时降低双曲运算所带来的计算复杂度。HRL则采用权重衰减策略,以优化不同层次上的排序目标,避免潜在的层次优化冲突,进而增强模型的学习能力,使其能够生成更具区分性和稳定性的嵌入表示。根据实验结果对比可知,所提框架的效果优于基线方法,并在大多数任务中达到了最先进的性能,进一步验证了该框架的有效性和实用性。