[Paper] 邻域稳定性作为最近邻搜索性的度量

发布: 3天前 (2026年2月19日 GMT+8 02:09)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16673v1

概述

本文提出 Neighborhood Stability（邻域稳定性），这是一种轻量级、仅基于数据的方式，用于预测基于聚类的近似最近邻搜索（ANNS）在给定高维数据集上的表现。通过衡量聚类内部和跨聚类的最近邻关系的“稳定性”，作者提供了两个实用指标，使工程师能够提前判断基于聚类的 ANNS 流水线是否可能准确——无需先进行昂贵的搜索实验。

关键贡献

Clustering‑Neighborhood Stability Measure (clustering‑NSM) – 一个内部质量度量，通过观察真实最近邻在同一簇中保持的频率来评估给定的聚类。
Point‑Neighborhood Stability Measure (point‑NSM) – 一个数据集层面的“可聚类性”得分，可在执行任何聚类之前预测 clustering‑NSM 的值before任何聚类被执行。
Theoretical link – point‑NSM 与 clustering‑NSM 之间的理论关联，表明高 point‑NSM 意味着高 clustering‑NSM，从而提升 ANNS 的准确性。
Empirical validation – 在多个真实世界的高维基准（图像嵌入、文本向量、推荐数据）上进行实证验证，确认两种度量与流行的基于聚类的 ANNS 方法（如 IVF、ScaNN）的 recall@k 强相关。
Distance‑agnostic design – 这些度量仅依赖最近邻关系（排名），而非原始欧氏距离，使其可用于内积、余弦相似度或自定义相似度函数。

方法论

定义邻居集合 – 对数据集中的每个点 (x_i)，计算其前 (k) 个真实最近邻（使用精确度量）。
Clustering‑NSM
- 给定一个平面聚类（例如 k‑means、层次 k‑means），统计每个点的 (k) 个真实邻居中有多少落在与该点相同的簇中。
- 在所有点上对该计数进行归一化，得到 ([0,1]) 区间的稳定性得分；得分越高表示聚类越尊重真实邻居关系。
Point‑NSM
- 在没有任何聚类的情况下，检查相互最近邻图：如果两个点互相出现在对方的前 (k) 列表中，则它们相连。
- 计算相互最近邻图形成紧密连通分量（高导电率）的点的比例。这反映了数据自然划分为稳定邻域的程度。
预测流水线 – 使用 point‑NSM 估计选定聚类算法及其超参数（例如中心数）的预期 clustering‑NSM。
评估 – 在相同数据集上运行标准的基于聚类的 ANNS 流水线（IVF‑Flat、IVF‑PQ、ScaNN），测量 recall@k，并与两个稳定性得分进行相关性分析。

结果与发现

数据集 (嵌入维度)	Point‑NSM	Clustering‑NSM (IVF‑Flat)	Recall@10 (IVF‑Flat)
ImageNet‑ResNet (128)	0.78	0.71	0.92
SQuAD‑BERT (768)	0.62	0.55	0.81
MovieLens‑ALS (64)	0.84	0.80	0.95

强线性相关（Pearson ≈ 0.88），在所有测试方法中，clustering‑NSM 与 recall 之间呈现高度相关性。
Point‑NSM 能预测 clustering‑NSM，(R^{2}) 为 0.81，意味着可以在聚类之前估计 ANNS 性能。
当将欧氏距离替换为余弦相似度或内积时，指标保持稳定，验证了距离无关的行为。
对于 point‑NSM 较低的数据集（例如噪声大或点分布均匀），基于聚类的 ANNS 一致表现不佳，建议考虑使用图结构或乘积量化等替代索引方式。

实际意义

部署前的健全性检查 – 在投入计算资源构建 IVF 或 ScaNN 索引之前，先在样本上运行廉价的最近邻图并计算 point‑NSM。得分低表明基于聚类的 ANNS 可能会导致召回率差。
超参数调优捷径 – Point‑NSM 可以指导中心数量的选择：更高的 point‑NSM 允许使用更少的中心而仍保持精度，从而节省内存和索引时间。
跨度量可移植性 – 由于这些度量仅需邻居排名，它们可以应用于任何模型的嵌入（视觉、语言、推荐），无需重新推导特定距离的公式。
混合流水线 – 对于混合数据集（某些子空间高稳定性，其他则不），可以基于 point‑NSM 对数据进行划分，仅在合理的地方使用基于聚类的 ANNS，在其他地方回退到基于图的搜索。
漂移监控 – 在生产环境中，定期在新摄入的数据上重新计算 point‑NSM，以检测数据分布是否已发生足以削弱现有 ANNS 索引的漂移。

限制与未来工作

精确邻居计算是获取指标的真实邻居集合所必需的，这在大规模数据集上可能代价高昂；作者建议使用近似邻居图作为代理，但这会引入噪声。
本研究聚焦于平面（单层）聚类；将稳定性概念扩展到层次或多层索引（例如 HNSW‑IVF 混合）仍是未解决的问题。
Point‑NSM 假设固定的 (k)（通常为 10–20）；对该超参数的敏感性尚未充分探讨。
实际系统常常结合多种相似度函数（例如内积与欧氏距离的混合）；在混合度量下评估稳定性是未来的工作方向。

作者

Thomas Vecchiato
Sebastian Bruch

论文信息

arXiv ID: 2602.16673v1
类别: cs.LG, cs.IR
出版时间: 2026年2月18日
PDF: 下载 PDF

[Paper] 邻域稳定性作为最近邻搜索性的度量

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求