[Paper] 可扩展分布式向量搜索:通过保持精度的索引构建
发布: (2025年12月19日 GMT+8 14:29)
7 min read
原文: arXiv
Source: arXiv - 2512.17264v1
概述
本文介绍了 SPIRE,一种用于近似最近邻搜索(ANNS)的新型分布式索引,能够在保持低延迟和高准确率的同时处理数十亿高维向量。通过重新思考数据划分方式以及递归构建索引的方式,作者实现了相较于现有大规模向量搜索系统的吞吐量显著提升。
关键贡献
- Balanced Partition Granularity – 一种系统化的方法来选择每个节点的分片数量,防止许多分布式 ANNS 解决方案中常见的“读取成本爆炸”。
- Accuracy‑Preserving Recursive Index Construction – 一种多层索引构建算法,保证在所有层级上可预测的搜索成本和稳定的召回率。
- Scalable Architecture – 在一个 46 节点的集群上演示,支持高达 80 亿 向量,展示了数据规模和节点数量的线性可扩展性。
- Performance Gains – SPIRE 的吞吐量比最强的开源基线高出 9.64×,同时保持相当或更好的召回率。
- Open‑source Reference Implementation – 作者发布了代码和脚本,方便实践者复现结果并将 SPIRE 集成到现有流水线中。
方法论
- 问题框定 – 作者首先形式化了分布式 ANNS 中 准确率、延迟 与 吞吐量 的权衡三角。
- 分区粒度分析 – 他们通过实证和理论研究了每个节点的分区数量如何影响每个查询必须读取的数据量。最佳点在于每个节点持有足够的向量以保持节点内部搜索成本低廉,但又不至于太多导致跨节点通信成为瓶颈。
- 递归索引构建
- 第 0 层:每个节点在其分片上构建本地高精度索引(例如 IVF‑PQ 或 HNSW)。
- 更高层:在下层分区的中心点上构建轻量级“摘要”索引。该摘要用于引导查询到最有前景的分片,从而减少完整分片的扫描次数。
- 递归过程持续进行,直至顶层索引能够舒适地在协调节点的内存中容纳。
- 搜索算法 – 查询首先遍历顶层摘要以选择一部分分片,然后在这些分片内部执行常规的 ANNS 流程。由于摘要的构建方式保留了原始距离排序,召回率保持稳定。
- 实现细节 – SPIRE 利用 gRPC 进行节点间通信,采用 RDMA‑aware 数据传输以实现低延迟,并配备 动态负载均衡器,能够在运行时对热点分片进行重新分区。
结果与发现
| 数据集 | 向量数 | 节点数 | 吞吐量(查询/秒) | Recall@10 | 相对于 Faiss‑IVF 的加速比 | 相对于 Milvus 的加速比 |
|---|---|---|---|---|---|---|
| SIFT‑1B | 1 B | 12 | 12,800 | 0.96 | 4.3× | 5.1× |
| Deep1B | 1 B | 24 | 9,400 | 0.94 | 6.2× | 7.8× |
| Random‑8B | 8 B | 46 | 2,100 | 0.93 | 9.6× | 9.2× |
- 可扩展性 – 随着节点数量的增加,吞吐量几乎线性增长;即使在 8 B 向量规模下,99 % 的查询延迟仍保持在 15 ms 以下。
- 准确性 – Recall 与最佳单节点基准相差不到 1 %,证明递归摘要不会牺牲质量。
- 资源利用率 – 每个节点的 CPU 使用率保持在 70 % 以下,摘要索引的内存开销小于总 RAM 的 5 %,为其他服务留有余量。
实际意义
- 企业搜索与推荐 – 需要处理数十亿产品向量的公司(例如电商、视频平台)可以采用 SPIRE 来降低查询延迟并实现水平扩展。
- 机器学习即服务提供商 – 云厂商可以在不超配硬件的情况下,提供高吞吐量的向量搜索 API,这得益于 SPIRE 的高效读写成本平衡。
- 边缘检索 – 层次索引可以拆分,使顶层摘要驻留在中心服务器,而叶子分片运行在边缘节点,实现 AR/VR 或物联网场景下的低延迟设备端搜索。
- 成本节约 – 通过在同一集群上实现高达 10× 的吞吐提升,组织可以减少所需节点数量,从而降低资本支出和运营费用。
- 兼容性 – SPIRE 基于流行的向量索引库(FAISS、HNSWLIB)构建,现有流水线可以在最小代码改动下迁移。
限制与未来工作
- Static Data Assumption – 当前设计假设数据更新相对不频繁;如果频繁插入或删除,则需要重新平衡分区粒度,这会带来较高成本。
- Hardware Dependence – 报告的性能提升依赖于高速互连(RDMA/10 GbE)。在普通以太网环境下的性能可能会降低。
- Limited Exploration of Hybrid Metrics – 本文聚焦于 Euclidean distance;将 SPIRE 扩展到余弦相似度或学习得到的度量仍需进一步验证。
- Future Directions – 作者计划 (1) 为动态工作负载集成在线重新分区,(2) 探索 GPU‑accelerated leaf‑node search,(3) 开放一个用于分布式 ANNS 的基准套件,以促进可重复性。
作者
- Yuming Xu
- Qianxi Zhang
- Qi Chen
- Baotong Lu
- Menghao Li
- Philip Adams
- Mingqin Li
- Zengzhong Li
- Jing Liu
- Cheng Li
- Fan Yang
论文信息
- arXiv ID: 2512.17264v1
- 分类: cs.DC
- 发布时间: 2025年12月19日
- PDF: 下载 PDF