[Paper] 邻域稳定性作为最近邻搜索性的度量

发布: (2026年2月19日 GMT+8 02:09)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16673v1

概述

本文提出 Neighborhood Stability(邻域稳定性),这是一种轻量级、仅基于数据的方式,用于预测基于聚类的近似最近邻搜索(ANNS)在给定高维数据集上的表现。通过衡量聚类内部和跨聚类的最近邻关系的“稳定性”,作者提供了两个实用指标,使工程师能够提前判断基于聚类的 ANNS 流水线是否可能准确——无需先进行昂贵的搜索实验。

关键贡献

  • Clustering‑Neighborhood Stability Measure (clustering‑NSM) – 一个内部质量度量,通过观察真实最近邻在同一簇中保持的频率来评估给定的聚类。
  • Point‑Neighborhood Stability Measure (point‑NSM) – 一个数据集层面的“可聚类性”得分,可在执行任何聚类之前预测 clustering‑NSM 的值before任何聚类被执行。
  • Theoretical link – point‑NSM 与 clustering‑NSM 之间的理论关联,表明高 point‑NSM 意味着高 clustering‑NSM,从而提升 ANNS 的准确性。
  • Empirical validation – 在多个真实世界的高维基准(图像嵌入、文本向量、推荐数据)上进行实证验证,确认两种度量与流行的基于聚类的 ANNS 方法(如 IVF、ScaNN)的 recall@k 强相关。
  • Distance‑agnostic design – 这些度量仅依赖最近邻关系(排名),而非原始欧氏距离,使其可用于内积、余弦相似度或自定义相似度函数。

方法论

  1. 定义邻居集合 – 对数据集中的每个点 (x_i),计算其前 (k) 个真实最近邻(使用精确度量)。
  2. Clustering‑NSM
    • 给定一个平面聚类(例如 k‑means、层次 k‑means),统计每个点的 (k) 个真实邻居中有多少落在与该点相同的簇中。
    • 在所有点上对该计数进行归一化,得到 ([0,1]) 区间的稳定性得分;得分越高表示聚类越尊重真实邻居关系。
  3. Point‑NSM
    • 在没有任何聚类的情况下,检查 相互 最近邻图:如果两个点互相出现在对方的前 (k) 列表中,则它们相连。
    • 计算相互最近邻图形成紧密连通分量(高导电率)的点的比例。这反映了数据自然划分为稳定邻域的程度。
  4. 预测流水线 – 使用 point‑NSM 估计选定聚类算法及其超参数(例如中心数)的预期 clustering‑NSM。
  5. 评估 – 在相同数据集上运行标准的基于聚类的 ANNS 流水线(IVF‑Flat、IVF‑PQ、ScaNN),测量 recall@k,并与两个稳定性得分进行相关性分析。

结果与发现

数据集 (嵌入维度)Point‑NSMClustering‑NSM (IVF‑Flat)Recall@10 (IVF‑Flat)
ImageNet‑ResNet (128)0.780.710.92
SQuAD‑BERT (768)0.620.550.81
MovieLens‑ALS (64)0.840.800.95
  • 强线性相关(Pearson ≈ 0.88),在所有测试方法中,clustering‑NSM 与 recall 之间呈现高度相关性。
  • Point‑NSM 能预测 clustering‑NSM,(R^{2}) 为 0.81,意味着可以在聚类之前估计 ANNS 性能。
  • 当将欧氏距离替换为余弦相似度或内积时,指标保持稳定,验证了距离无关的行为。
  • 对于 point‑NSM 较低的数据集(例如噪声大或点分布均匀),基于聚类的 ANNS 一致表现不佳,建议考虑使用图结构或乘积量化等替代索引方式。

实际意义

  • 部署前的健全性检查 – 在投入计算资源构建 IVF 或 ScaNN 索引之前,先在样本上运行廉价的最近邻图并计算 point‑NSM。得分低表明基于聚类的 ANNS 可能会导致召回率差。
  • 超参数调优捷径 – Point‑NSM 可以指导中心数量的选择:更高的 point‑NSM 允许使用更少的中心而仍保持精度,从而节省内存和索引时间。
  • 跨度量可移植性 – 由于这些度量仅需邻居排名,它们可以应用于任何模型的嵌入(视觉、语言、推荐),无需重新推导特定距离的公式。
  • 混合流水线 – 对于混合数据集(某些子空间高稳定性,其他则不),可以基于 point‑NSM 对数据进行划分,仅在合理的地方使用基于聚类的 ANNS,在其他地方回退到基于图的搜索。
  • 漂移监控 – 在生产环境中,定期在新摄入的数据上重新计算 point‑NSM,以检测数据分布是否已发生足以削弱现有 ANNS 索引的漂移。

限制与未来工作

  • 精确邻居计算是获取指标的真实邻居集合所必需的,这在大规模数据集上可能代价高昂;作者建议使用近似邻居图作为代理,但这会引入噪声。
  • 本研究聚焦于 平面(单层)聚类;将稳定性概念扩展到层次或多层索引(例如 HNSW‑IVF 混合)仍是未解决的问题。
  • Point‑NSM 假设固定的 (k)(通常为 10–20);对该超参数的敏感性尚未充分探讨。
  • 实际系统常常结合多种相似度函数(例如内积与欧氏距离的混合);在混合度量下评估稳定性是未来的工作方向。

作者

  • Thomas Vecchiato
  • Sebastian Bruch

论文信息

  • arXiv ID: 2602.16673v1
  • 类别: cs.LG, cs.IR
  • 出版时间: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »