[Paper] 可扩展分布式向量搜索：通过保持精度的索引构建

发布: 1个月前 (2025年12月19日 GMT+8 14:29)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.17264v1

概述

本文介绍了 SPIRE，一种用于近似最近邻搜索（ANNS）的新型分布式索引，能够在保持低延迟和高准确率的同时处理数十亿高维向量。通过重新思考数据划分方式以及递归构建索引的方式，作者实现了相较于现有大规模向量搜索系统的吞吐量显著提升。

Balanced Partition Granularity – 一种系统化的方法来选择每个节点的分片数量，防止许多分布式 ANNS 解决方案中常见的“读取成本爆炸”。
Accuracy‑Preserving Recursive Index Construction – 一种多层索引构建算法，保证在所有层级上可预测的搜索成本和稳定的召回率。
Scalable Architecture – 在一个 46 节点的集群上演示，支持高达 80 亿 向量，展示了数据规模和节点数量的线性可扩展性。
Performance Gains – SPIRE 的吞吐量比最强的开源基线高出 9.64×，同时保持相当或更好的召回率。
Open‑source Reference Implementation – 作者发布了代码和脚本，方便实践者复现结果并将 SPIRE 集成到现有流水线中。

问题框定 – 作者首先形式化了分布式 ANNS 中 准确率、延迟与 吞吐量 的权衡三角。
分区粒度分析 – 他们通过实证和理论研究了每个节点的分区数量如何影响每个查询必须读取的数据量。最佳点在于每个节点持有足够的向量以保持节点内部搜索成本低廉，但又不至于太多导致跨节点通信成为瓶颈。
递归索引构建
- 第 0 层：每个节点在其分片上构建本地高精度索引（例如 IVF‑PQ 或 HNSW）。
- 更高层：在下层分区的中心点上构建轻量级“摘要”索引。该摘要用于引导查询到最有前景的分片，从而减少完整分片的扫描次数。
- 递归过程持续进行，直至顶层索引能够舒适地在协调节点的内存中容纳。
搜索算法 – 查询首先遍历顶层摘要以选择一部分分片，然后在这些分片内部执行常规的 ANNS 流程。由于摘要的构建方式保留了原始距离排序，召回率保持稳定。
实现细节 – SPIRE 利用 gRPC 进行节点间通信，采用 RDMA‑aware 数据传输以实现低延迟，并配备 动态负载均衡器，能够在运行时对热点分片进行重新分区。

数据集	向量数	节点数	吞吐量（查询/秒）	Recall@10	相对于 Faiss‑IVF 的加速比	相对于 Milvus 的加速比
SIFT‑1B	1 B	12	12,800	0.96	4.3×	5.1×
Deep1B	1 B	24	9,400	0.94	6.2×	7.8×
Random‑8B	8 B	46	2,100	0.93	9.6×	9.2×

Static Data Assumption – 当前设计假设数据更新相对不频繁；如果频繁插入或删除，则需要重新平衡分区粒度，这会带来较高成本。
Hardware Dependence – 报告的性能提升依赖于高速互连（RDMA/10 GbE）。在普通以太网环境下的性能可能会降低。
Limited Exploration of Hybrid Metrics – 本文聚焦于 Euclidean distance；将 SPIRE 扩展到余弦相似度或学习得到的度量仍需进一步验证。
Future Directions – 作者计划 (1) 为动态工作负载集成在线重新分区，(2) 探索 GPU‑accelerated leaf‑node search，(3) 开放一个用于分布式 ANNS 的基准套件，以促进可重复性。