[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

发布: 3天前 (2026年2月6日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06025v1

概览

大型语言模型（LLM）代理开始使用外部记忆，以便在单个上下文窗口容纳不了的信息上进行推理。现有的流水线通常在离线构建这些记忆，并且不查看实际查询，这会浪费计算资源，甚至丢失对当前任务至关重要的信息。论文 Learning Query‑Aware Budget‑Tier Routing for Runtime Agent Memory 引入了 BudgetMem，一种以运行时为中心的记忆系统，允许开发者在答案质量与构建/使用记忆的成本之间进行明确的权衡。

关键贡献

Budget‑tiered memory modules – 每个模块（例如检索、摘要、推理）提供三种预定义的“预算”层级（低 / 中 / 高），在复杂度、推理行为或模型规模上有所不同。
Lightweight routing policy – 一个紧凑的神经控制器通过强化学习进行训练，按查询决定每个模块使用哪个层级，从而塑造整体的成本‑性能曲线。
Unified testbed – 作者将三种预算层级策略（实现方式、推理方式、容量）统一封装到同一框架中，能够在多样化基准（LoCoMo、LongMemEval、HotpotQA）上进行系统化比较。
Empirical gains – 当预算宽裕时，BudgetMem 超越强基线；更重要的是，在资源受限的情况下，它提供了更优的准确率‑成本前沿。
Analytical insights – 研究剖析了何时每个层级维度（方法复杂度、推理风格、模型容量）最具价值，为系统设计者提供了实用的指导。

方法论

记忆模块 – 系统将代理的记忆管道分解为可重用的组件（例如，文档检索、段落摘要、答案生成）。
预算层级
- 实现层：相同的算法思路，但采用更廉价或更丰富的实现方式（例如，BM25 与密集检索）。
- 推理层：不同的推理行为，如 “单次” 提示 vs. 多步链式思考。
- 容量层：底层模型规模更小或更大（例如，7B vs. 13B）。
路由器策略 – 一个小型基于 Transformer 的策略网络接收 查询嵌入 和关于当前记忆状态的轻量统计信息，然后为每个模块输出层级选择。
训练 – 路由器使用强化学习进行训练，奖励在 任务准确率（例如，HotpotQA 的精确匹配）与 预算惩罚（与计算时间或 token 使用量成比例）之间取得平衡。
评估 – 实验在三种预算模式（紧张、适中、宽裕）下进行扫描，并与静态层级基线（始终低、始终高）以及先前的运行时记忆方法进行比较。

结果与发现

基准	高预算（最高层）	紧预算（低层）	预算感知（BudgetMem）
LoCoMo	+3.2 % EM over baseline	–1.1 % EM vs. baseline	+2.0 % EM while staying under budget
LongMemEval	+4.5 % F1	–0.8 % F1	+3.1 % F1 with 30 % less compute
HotpotQA	+5.0 % EM	–0.5 % EM	+4.2 % EM at 40 % lower latency

准确性‑成本前沿：BudgetMem 始终领先于静态基线，在相同计算预算下提供更高分数，在相同分数下使用更少计算。
层级轴分析：
- 实现层在预算极其紧张时表现突出（廉价检索仍能找到正确文档）。
- 推理层在中等预算区间带来最大提升（链式思考在不显著增加成本的情况下提升价值）。
- 容量层仅在预算宽裕时占优势，证实在受限条件下扩大模型规模并非最有效的杠杆。

实际意义

动态成本控制 – 部署（例如 SaaS LLM 助手、聊天机器人）可以向客户公开一个“性能预算”旋钮，让系统自动根据每个请求调高/调低记忆复杂度。
资源感知扩展 – 云服务商可以为低优先级查询调度更廉价的记忆管线，同时为高级或时间关键任务保留高层模块，从而提升整体吞吐量。
降低幻觉 – 通过将需要深度推理的查询路由到更高推理层级，代理能够检索并综合更相关的上下文，减轻常见的“超出范围”错误。
即插即用架构 – 由于 BudgetMem 将每个记忆组件视为模块化块，现有的检索或摘要服务可以在最小的工程工作量下进行替换。

限制与未来工作

训练开销 – 强化学习路由器需要单独的优化阶段；作者指出，当添加新模块或数据集时，策略可能需要重新训练。
预算定义 – 当前实验使用计算时间和令牌数量作为成本的代理指标；实际部署可能需要考虑内存带宽、GPU 分配或金钱定价。
泛化能力 – 路由器的决策在与训练相同的基准族上进行评估；跨领域鲁棒性（例如，从问答到代码生成）仍是未解之题。
未来方向 建议包括：（1）对路由器进行元学习，以在新任务上即时适应；（2）扩展层级空间以纳入检索增强生成模型；（3）探索多目标优化，联合考虑延迟、能耗和用户满意度指标。

作者

Haozhen Zhang
Haodong Yue
Tao Feng
Quanyu Long
Jianzhu Bao
Bowen Jin
Weizhi Zhang
Xiao Li
Jiaxuan You
Chengwei Qin
Wenya Wang

论文信息

arXiv ID: 2602.06025v1
分类: cs.CL, cs.AI, cs.LG
出版日期: 2026年2月5日
PDF: 下载 PDF

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 通过自蒸馏的多标记预测

[Paper] 利用 OpenAI Whisper 表征和注意力池化方法的语音情感识别

[Paper] 将人类在概念生成中的语义导航表征为Embedding Space中的轨迹

[Paper] DARWIN：动态代理式重写自我改进网络