Agents 需要向量搜索,超过 RAG 以往的需求

发布: (2026年3月13日 GMT+8 04:45)
12 分钟阅读
原文: VentureBeat

Source: VentureBeat

Source:

向量数据库在 Agentic AI 领域中的角色

过去几个月,组织一直在思考这个问题:

在日益以代理为中心的 AI 世界中,向量数据库扮演什么角色?

主流叙事

当大语言模型(LLMs)开始支持 百万 token 上下文窗口 时,企业架构师中出现了一个常见的论点:

  • 前提: 为检索增强生成(Retrieval‑Augmented Generation,RAG)专门构建的向量搜索仅仅是一个 临时方案——一个暂时的层。
  • 预测: 随着 agentic memory 的成熟,它将吸收检索问题,使向量数据库成为 RAG 时代的产物。

实际情况

市场正朝相反的方向发展。

  • Qdrant,这家总部位于柏林的开源向量搜索公司,宣布完成 5,000 万美元 Series B 融资(VentureBeat,2024)——仅在两年前完成 2,800 万美元 Series A 融资后。
  • 同时,该公司发布了平台 v1.17 版本。

这些里程碑共同传达了一个明确的信息:

检索问题并没有因为代理的出现而缩小;相反,它变得更大、更复杂。

Qdrant CEO 的引用

“人类每隔几分钟才会发起几次查询,” Qdrant 的 CEO 兼联合创始人 Andre Zayarni 对 VentureBeat 说。
代理每秒会发起数百甚至数千次查询,只是为了收集信息以便做出决策。”

为什么这种转变重要

方面RAG 时代部署Agentic 时代部署
查询频率低(人类规模)高(代理规模)
延迟要求中等超低
吞吐需求每分钟数十至数百次每秒数百至数千次
数据新鲜度定期更新近实时摄入
基础设施设计为偶发检索优化为持续高频检索构建

查询量的激增迫使我们重新思考核心基础设施:

  • 可扩展的索引,能够快速处理插入和删除。
  • 低延迟、高吞吐的服务,保持代理的响应性。
  • 成本效益的存储 策略,因为向量数量会急剧增长。
  • 强大的监控与可观测性,在瓶颈影响代理决策之前及时发现。

结论

向量数据库 不是 RAG 时代的遗物。它们正成为 agentic AI 系统的 支柱,负责在规模化的实时检索中提供 海量、即时 的支持。随着代理在企业中的普及,对高性能向量搜索的需求只会进一步加剧。

为什么代理需要检索层,而记忆无法取代

代理必须处理它们从未接受过训练的信息:

  • 专有企业数据
  • 当前信息
  • 持续变化的数百万文档

虽然上下文窗口管理会话状态,但它们 并不 提供:

  1. 高召回率搜索 跨这些数据。
  2. 一致的检索质量 随着数据演变。
  3. 可扩展的查询量 由自主决策产生。

“市面上大多数 AI 记忆框架都在使用某种向量存储。” — Zayarni

这直接意味着:即使标榜为记忆替代方案的工具,也依赖于底层的检索基础设施。

当检索层不是为此专门构建时的三种失败模式

失败模式影响
文档规模的漏检这不是延迟问题,而是 决策质量 的问题,会在单个代理回合的每一次检索过程中累积。
写入负载下的相关性下降新写入的数据会停留在未优化的分段中,直到索引赶上,这会使对最新数据的搜索变慢且不够准确——恰恰在当前信息最重要的时候。
分布式基础设施中的延迟峰值单个慢副本会拖慢代理回合中每个并行工具调用的延迟。人类用户会感到不便;而自主代理则无法容忍这种情况。

Qdrant 1.17 如何解决这些问题

  • 相关性反馈查询 – 通过使用轻量的、模型生成的信号在下一次检索时调整相似度评分来提升召回率,无需重新训练嵌入模型
  • 延迟分流 – 当第一个副本的响应超过可配置的延迟阈值时,查询第二个副本,防止慢节点阻塞整个请求。
  • 集群范围遥测 API – 用单一视图取代逐节点排查,简化诊断和性能监控。

Source:

为什么 Qdrant 不再想被称为 向量数据库

几乎所有主流数据库现在都支持向量作为数据类型——从超大规模云服务到传统关系系统。这一转变改变了竞争焦点:数据类型已经是基本配置。仍然需要专注的,是生产规模下的检索质量

正是这种区别让 Zayarni 不再希望 Qdrant 被称为“向量数据库”。

“我们正在为 AI 时代构建信息检索层,”他说。
“数据库是用来存储用户数据的。如果搜索结果的质量重要,你需要的是搜索引擎。”

给团队的入门建议

  • 使用你技术栈中已有的向量支持。
  • 只有在规模迫使时才迁移到专门构建的检索方案。

“我们每天都看到公司来找我们,说他们一开始用了 Postgres,觉得够用了——其实并不够。”

Qdrant 的独特之处

  • Rust 架构——提供内存效率和底层性能控制,较高级语言在同等成本下难以匹配。
  • 开源基石——社区反馈和开发者采纳让 Qdrant 能与拥有更大工程资源的厂商竞争。

“没有它,我们根本不可能达到现在的状态,” Zayarni 说。

两个生产团队发现通用数据库的局限

GlassDollar

GlassDollar 帮助企业(包括西门子和马勒)评估初创公司。其核心产品是搜索:用户用自然语言描述需求,系统从数百万家公司中返回排序后的候选名单。

架构
  • 查询扩展 在每一次请求上运行。
  • 单个提示会分发为多个并行查询,每个查询从不同角度检索候选。
  • 将结果合并后重新排序。

这是一种 agentic retrieval(而非 RAG)模式,需要专门的搜索基础设施才能在高并发下支撑。

迁移到 Qdrant 的影响
指标迁移前(Elasticsearch)迁移后(Qdrant)
索引文档数~10 M~10 M
基础设施成本‑40 %
基于关键词的补偿层使用中已移除
用户参与度×3

“我们用召回率来衡量成功,” Kamen Kanev,GlassDollar 产品负责人说。“如果最好的公司不在结果里,其他一切都无关紧要。用户会失去信任。”

“那是基础设施问题,而不是对话状态管理任务,” Kanev 补充道。“这不是通过扩展上下文窗口可以解决的。”

&AI

&AI 为专利诉讼构建基础设施。其 AI 代理 Andy 在数亿份跨年代、跨司法管辖区的文档中进行语义搜索。因为专利律师不会直接采用 AI 生成的法律文本,代理展示的每一个结果都必须有真实文档作支撑。

“我们的整体架构旨在通过把检索设为核心原语、而非生成,来最小化幻觉风险,” Herbie Turner,&AI 创始人兼 CTO 说。

对 &AI 来说,代理层与检索层本身就是分离设计的:

“Andy,我们的专利代理,构建在 Qdrant 之上。代理是接口,向量数据库是事实真相。” – Herbie Turner

结论

这两个团队都表明,当检索是主要原语时,像 Qdrant 这样的专用向量数据库能够:

  • 大幅降低成本
  • 提升相关性
  • 减少幻觉

这些是通用数据库难以提供的能力。

Source:

三个信号表明是时候摆脱当前设置

实际的起点是 使用你现有技术栈中已经具备的向量能力。评估的关键不在于 是否 添加向量搜索,而在于 何时 你的当前设置不再足够。

表明需要升级的三个信号

  1. 检索质量直接影响业务结果——错过或不相关的结果会对收入、合规或用户满意度产生真实的后果。
  2. 复杂的查询模式——你需要扩展、 多阶段重新排序,或并行调用工具,而现有系统无法高效处理。
  3. 数据量扩展到数千万文档——庞大的规模会超出当前方案的性能和存储限制。

只要出现上述任意信号,关注点就会转向运营层面的问答:

  • 你的当前设置能在分布式集群中提供多少可视化的活动监控?
  • 随着代理查询量的增加,性能余量还能剩多少?

“现在关于检索层的替代方案有很多噪音,”Kanev 说。“但对于任何把检索质量当作产品核心、错过结果会带来真实业务后果的产品来说,你需要专用的搜索基础设施。”

0 浏览
Back to Blog

相关文章

阅读更多 »

如何使用混合搜索构建 Agentic RAG

检索增强生成(Retrieval‑Augmented Generation,RAG)和混合搜索(Hybrid Search)是一种强大的技术,用于从语料库中检索相关文档……

语言模型团队作为分布式系统

摘要:大语言模型(LLMs)正变得越来越强大,促使人们最近对 LLM 团队产生兴趣。然而,尽管 LLM 团队的部署日益增多……