RAG 时代正走向终结，面向代理式 AI —— 下一步是全新的编译阶段知识层

发布: 6小时前 (2026年5月5日 GMT+8 03:13)

12 分钟阅读

Source: VentureBeat

Source: …

Pinecone的回应：Nexus

向量数据库先驱 Pinecone 正在转向满足代理式 AI 的特定需求。公司宣布了 Nexus，其定位为 知识引擎，而不仅仅是检索改进。

关键特性

组件	功能描述
Context Compiler	在代理查询之前，将原始企业数据转换为持久的、任务特定的知识工件。
Composable Retriever	使用字段级引用、确定性冲突解决，并按代理规范塑造输出，提供这些工件。
KnowQL	一种声明式查询语言，为代理提供词汇，以指定输出形状、置信度要求和延迟预算。

“RAG 是为人类用户构建的。Nexus 是为代理式用户构建的，因为它们的语言截然不同。它们期望的响应也大相径庭。代理被分配的任务与聊天机器人应完成的任务截然不同。” – Ash Ashutosh，Pinecone 首席执行官

在 Pinecone 的内部基准测试中，之前需要 2.8 M 令牌的金融分析任务，使用 Nexus 只消耗了 4 K 令牌（降低了 98 %）。该声明尚未在客户生产部署中得到验证。Nexus 已于今天起 开放早期访问。

为什么 RAG 从未为代理实际做的事情而构建

RAG 假设单一查询 → 单一响应循环，并且有人类在环中解释结果。
代理被分配任务，而不是孤立的问题。完成任务需要：
- 从多个来源汇集上下文。
- 解决冲突。
- 跟踪已经检索的内容。
- 决定下一步查询什么。

传统 RAG 的问题

RAG 流水线 在推理时检索文档 并将其交给模型。
每个代理会话从 零开始，没有对企业数据资产（例如表关系、权威来源、可消费格式）的综合理解。
每个会话 重新发现 这些信息，从头开始。

“所有这些问题的核心是一个非常简单的难题，” Ashutosh 说。“你让代理——机器——去处理为人类设计的系统和数据。”

Pinecone 估计 85 % 的代理计算工作 用于 重新发现循环，而不是任务完成，导致：

延迟不可预测。
代币成本失控。
结果非确定性（相同数据得到不同答案，且无法追溯来源）。

对于有审计要求的企业来说，这是一种 结构性淘汰因素，而非调优问题。

什么是 Nexus 以及它是如何工作的

将推理上移

传统 RAG：推理（解释、上下文化、结构化）在 查询时 进行，会在可以预先完成的工作上消耗 token。
Nexus：在 编译阶段（即任何代理查询之前） 一次性 完成这些推理，然后将结果存储为 可复用的知识工件。

代理收到的是 结构化、任务就绪的上下文，而不是需要现场解释的原始文档。

架构组件

Context Compiler
- 接收原始源数据 + 任务规范。
- 构建 专用的知识工件（结构化、任务优化的表示）。
- 示例：
  - 销售代理 → 从 CRM 与通话记录合成的交易上下文。
  - 财务代理 → 将合同与计费计划关联的收入上下文。
- 工件是 持久化 的，可在多个会话之间复用。
Composable Retriever
- 在查询时提供已编译的工件。
- 提供 带类型的字段、每字段的引用（含置信度），以及 确定性的冲突解决。
- 输出符合代理指定的格式（而非原始文本）。
KnowQL
- 第一个 面向代理而非人类的声明式查询语言。
- 六大原语：intent、filter、provenance、output shape、confidence、budget。
- 允许代理在单一接口中指定结构化响应、来源依据以及延迟预算。
- Ashutosh 将其影响类比为 SQL 对关系型数据库的作用：在出现标准接口之前，每个应用都必须从头构建自己的数据访问层。

与 Pinecone 向量数据库的关系

Context Compiler 生成的知识工件会 在 Pinecone 向量数据库中建立索引并存储。
编译层 负责塑造并提供知识。
向量层 负责 存储、检索速度和规模。

“向量仍然由 Pinecone 向量数据库存储和管理，” Ashutosh 说。

分析师对架构主张的要点

上游推理并不新鲜——本体论、数据目录和语义层多年来一直在探索类似的理念。
变化在于能够扩展此方法，而无需为每个领域配备专门的工程团队。
Pinecone 的主张依赖于在大规模下提供以代理为中心、确定性、低 token的检索，如果在真实部署中得到验证，可能成为重要的差异化因素。

Nexus 与 RAG 架构的演进

Nexus 正在掀起波澜，分析师们认为它是真正的进步。HyperFRAME Research AI 堆栈实践负责人 Stephanie Walter 在接受 VentureBeat 采访时表示，Nexus 在方向上很重要，因为它将知识工作从运行时的混乱转向预编译的结构。她强调，这是一种 RAG 架构的演进，而不是一次全盘重塑。

“真正的创新不在于想法本身，而在于将知识编译作为一等基础设施层进行产品化，”Walter 说。“如果 Pinecone 能够可靠地将其运营化，它就会成为有意义的基础设施，而不仅仅是另一种 RAG 调优技巧。”

支撑这一说法的技术机制正是 Gartner 认可的副总裁分析师 Arun Chandrasekaran 所称的 有意义的架构区别。

“传统 RAG 依赖于运行时的纯语义搜索，而架构编译则将结构化逻辑嵌入元数据层，这可以提升响应时间并提供更好的推理能力，”Chandrasekaran 对 VentureBeat 说。“这是一项从简单检索到增强推理的重要跨越，使代理能够在企业模式中导航，并获取更好的记忆以实现上下文化。”

竞争格局

供应商	产品	重点
Microsoft	FabricIQ	为代理式 AI 提供语义上下文
Google	Agentic Data Cloud	帮助解决相同的问题
Standalone solutions	hindsight（上下文记忆）	为用户提供替代选项

“代理式 AI 堆栈正碎片化为数十个功能，但企业买家不应追逐功能，” Walter 说。“他们应该追求控制：成本控制、治理控制和安全控制。”

她认为，大多数企业在代理式 AI 方面的失败不会是技术层面的，而是运营层面的——与成本超支、治理缺口和安全纪律相关。

超越检索速度

“真正的差异化在于 确定性基础，” Chandrasekaran 说，并指出诸如知识图谱等技术，确保代理能够理解企业数据中的结构关系，而不是返回表层匹配。

互操作性是相关的考量：诸如 模型上下文协议 (MCP) 等标准对于将代理连接到传统数据源而不产生新依赖至关重要。

对企业的意义

RAG 与向量数据库诞生于不同的时代

代理工作负载正在揭示两者的局限。

检索成本问题是架构层面的

在传统 RAG 流程上运行复杂代理工作负载的团队，在推理时消耗大量 token，去完成本可以提前完成的工作——每次会话都要从头解释、上下文化并结构化知识。这是设计问题，调优检索层无法解决。

数据工程团队的关键问题：
当前技术栈在结构上是否能够为特定的代理任务预编译知识，还是仅为从未需要此能力的人类用户而构建的？

治理将试点与生产区分开来

决定代理 AI 能否获准企业使用的能力并非性能指标。

“真正的企业价值主张不仅是更快的检索，而是 受治理的知识流水线，”Walter 说。“这些能力将把代理 AI 从实验转变为财务和风险团队真正会批准的方案。”

预算已转变

VentureBeat 的第一季度 Pulse 数据显示，检索优化投资在三月上升至 28.9 %，首次在本季度超越评估支出。企业已经完成对检索问题的测量；现在正投入资金去解决这些问题。

“代理 AI 的未来不会由谁拥有最长的上下文窗口决定，”Walter 说。“而是由谁能够在规模化的同时实现可信知识的运营，而不导致成本或治理失控来决定。”