[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

发布: (2026年2月6日 GMT+8 02:57)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06025v1

概览

大型语言模型(LLM)代理开始使用外部记忆,以便在单个上下文窗口容纳不了的信息上进行推理。现有的流水线通常在 离线 构建这些记忆,并且不查看实际查询,这会浪费计算资源,甚至丢失对当前任务至关重要的信息。论文 Learning Query‑Aware Budget‑Tier Routing for Runtime Agent Memory 引入了 BudgetMem,一种以运行时为中心的记忆系统,允许开发者在答案质量与构建/使用记忆的成本之间进行明确的权衡。

关键贡献

  • Budget‑tiered memory modules – 每个模块(例如检索、摘要、推理)提供三种预定义的“预算”层级(低 / 中 / 高),在复杂度、推理行为或模型规模上有所不同。
  • Lightweight routing policy – 一个紧凑的神经控制器通过强化学习进行训练,按查询决定每个模块使用哪个层级,从而塑造整体的成本‑性能曲线。
  • Unified testbed – 作者将三种预算层级策略(实现方式、推理方式、容量)统一封装到同一框架中,能够在多样化基准(LoCoMo、LongMemEval、HotpotQA)上进行系统化比较。
  • Empirical gains – 当预算宽裕时,BudgetMem 超越强基线;更重要的是,在资源受限的情况下,它提供了更优的准确率‑成本前沿。
  • Analytical insights – 研究剖析了何时每个层级维度(方法复杂度、推理风格、模型容量)最具价值,为系统设计者提供了实用的指导。

方法论

  1. 记忆模块 – 系统将代理的记忆管道分解为可重用的组件(例如,文档检索、段落摘要、答案生成)。
  2. 预算层级
    • 实现层:相同的算法思路,但采用更廉价或更丰富的实现方式(例如,BM25 与密集检索)。
    • 推理层:不同的推理行为,如 “单次” 提示 vs. 多步链式思考。
    • 容量层:底层模型规模更小或更大(例如,7B vs. 13B)。
  3. 路由器策略 – 一个小型基于 Transformer 的策略网络接收 查询嵌入 和关于当前记忆状态的轻量统计信息,然后为每个模块输出层级选择。
  4. 训练 – 路由器使用强化学习进行训练,奖励在 任务准确率(例如,HotpotQA 的精确匹配)与 预算惩罚(与计算时间或 token 使用量成比例)之间取得平衡。
  5. 评估 – 实验在三种预算模式(紧张、适中、宽裕)下进行扫描,并与静态层级基线(始终低、始终高)以及先前的运行时记忆方法进行比较。

结果与发现

基准高预算(最高层)紧预算(低层)预算感知(BudgetMem)
LoCoMo+3.2 % EM over baseline–1.1 % EM vs. baseline+2.0 % EM while staying under budget
LongMemEval+4.5 % F1–0.8 % F1+3.1 % F1 with 30 % less compute
HotpotQA+5.0 % EM–0.5 % EM+4.2 % EM at 40 % lower latency
  • 准确性‑成本前沿:BudgetMem 始终领先于静态基线,在相同计算预算下提供更高分数,在相同分数下使用更少计算。
  • 层级轴分析
    • 实现 层在预算极其紧张时表现突出(廉价检索仍能找到正确文档)。
    • 推理 层在中等预算区间带来最大提升(链式思考在不显著增加成本的情况下提升价值)。
    • 容量 层仅在预算宽裕时占优势,证实在受限条件下扩大模型规模并非最有效的杠杆。

实际意义

  • 动态成本控制 – 部署(例如 SaaS LLM 助手、聊天机器人)可以向客户公开一个“性能预算”旋钮,让系统自动根据每个请求调高/调低记忆复杂度。
  • 资源感知扩展 – 云服务商可以为低优先级查询调度更廉价的记忆管线,同时为高级或时间关键任务保留高层模块,从而提升整体吞吐量。
  • 降低幻觉 – 通过将需要深度推理的查询路由到更高推理层级,代理能够检索并综合更相关的上下文,减轻常见的“超出范围”错误。
  • 即插即用架构 – 由于 BudgetMem 将每个记忆组件视为模块化块,现有的检索或摘要服务可以在最小的工程工作量下进行替换。

限制与未来工作

  • 训练开销 – 强化学习路由器需要单独的优化阶段;作者指出,当添加新模块或数据集时,策略可能需要重新训练。
  • 预算定义 – 当前实验使用计算时间和令牌数量作为成本的代理指标;实际部署可能需要考虑内存带宽、GPU 分配或金钱定价。
  • 泛化能力 – 路由器的决策在与训练相同的基准族上进行评估;跨领域鲁棒性(例如,从问答到代码生成)仍是未解之题。
  • 未来方向 建议包括:(1)对路由器进行元学习,以在新任务上即时适应;(2)扩展层级空间以纳入检索增强生成模型;(3)探索多目标优化,联合考虑延迟、能耗和用户满意度指标。

作者

  • Haozhen Zhang
  • Haodong Yue
  • Tao Feng
  • Quanyu Long
  • Jianzhu Bao
  • Bowen Jin
  • Weizhi Zhang
  • Xiao Li
  • Jiaxuan You
  • Chengwei Qin
  • Wenya Wang

论文信息

  • arXiv ID: 2602.06025v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »