[论文] 基于Agentic Memory增强的递归推理用于微服务中的根因定位

发布: (2026年1月6日 GMT+8 13:50)
7 min read
原文: arXiv

Source: arXiv - 2601.02732v1

概述

微服务架构如今为许多大型应用提供动力,但其庞大的规模和相互依赖性使得故障诊断变得困难。本文提出了 AMER‑RCL 框架,它将递归推理与“代理记忆”相结合,使大语言模型(LLM)能够更像经验丰富的站点可靠性工程师(SRE)一样思考。作者展示了该方法在提升根因定位准确率的同时,还能降低推理延迟。

关键贡献

  • Empirical SRE study – 对多个组织的访谈揭示了专家故障排查的三个标志:递归细化、多维扩展和跨模态推理。
  • Recursive Reasoning Engine (RCL) – 一个多代理 LLM 系统,迭代地缩小每个警报的候选原因,模拟 SRE 的逐步推理过程。
  • Agentic Memory layer – 一个轻量级、基于时间窗口的存储层,捕获先前处理的警报推理痕迹并复用,以避免重复工作。
  • Comprehensive evaluation – 在真实微服务故障数据集上的基准测试显示,相较于之前的基于图的、深度学习的以及仅 LLM 的基线,在准确率(最高提升 +12 % F1)和延迟(平均推理时间降低 ‑30 %)方面均有一致提升。
  • Open‑source prototype – 作者发布了最小实现和一套可复现的脚本,鼓励社区采纳和进一步研究。

方法论

  1. 数据收集与标注 – 团队从生产微服务集群中收集了告警日志、追踪跨度和配置快照,然后让 SRE 对真实根因进行标注。
  2. Agentic Memory 设计 – 一个以告警签名(例如服务名称、错误模式)为索引的键值存储,保留最新的推理步骤(LLM 提示、 中间假设以及最终判定)。该记忆每 T 分钟刷新一次,以保持上下文新鲜。
  3. 递归推理循环
    • 初始化:使用原始告警。
    • 生成假设:使用 LLM(如 GPT‑4),提示其考虑服务依赖、最近的部署以及已知的故障模式。
    • 验证:通过工具特定的适配器查询可观测性数据(指标、日志)来验证每个假设。
    • 剪枝:剔除低置信度的候选,并将剩余的候选送回 LLM 进行下一轮递归。
    • 终止:当置信度超过阈值或达到最大递归深度时结束。
  4. 跨告警复用 – 在处理新告警之前,系统会在 Agentic Memory 中查找相似的历史告警;若找到匹配,则将之前的推理轨迹注入提示,使 LLM 能够“站在前人的肩膀上”。
  5. 训练与微调 – LLM 保持冻结状态;仅在标注数据集上调优提示模板和 few‑shot 示例,以保持系统轻量且可移植。

Results & Findings

指标基于图的基线深度学习(GNN)仅LLMAMER‑RCL
F1‑Score (root cause)0.710.780.810.89
Top‑3 Accuracy0.840.880.900.95
Avg. Inference Latency (ms)420350610430
Redundant Reasoning (repeat prompts)1.8× per alert0.9×
  • 准确率提升 来源于递归细化,它能够在早期消除错误假设。
  • 延迟降低 主要得益于 Agentic Memory 复用推理痕迹,将每条警报的 LLM 调用次数削减约 30%。
  • 消融实验 表明,去除递归或记忆组件都会使性能回落到基线水平,验证了它们的互补作用。

实际影响

  • 更快的 MTTR(平均恢复时间) – 通过快速提供更精确的根因建议,SRE 团队可以在更少的人工调查下修复事件。
  • 可扩展的可观测性管道 – 内存层充当廉价缓存;它可以集成到现有的告警路由工具(例如 PagerDuty、Prometheus Alertmanager)中,而不会产生大量计算开销。
  • 跨团队知识共享 – 存储的推理轨迹充当活的知识库,帮助初级工程师从过去的事件中学习,减少“部落知识”的流失。
  • 供应商无关的部署 – 由于 LLM 通过 API 访问,框架只需为指标/日志提供适配器,就可以嵌入任何云原生堆栈(Kubernetes、服务网格等)。
  • 自动化修复的潜力 – 在高置信度的根因下,可以安全地触发下游自动化(例如回滚、断路器激活),实现从检测到自愈的转变。

限制与未来工作

  • 记忆新鲜度权衡 – Agentic Memory 的时间窗口必须在相关性和存储成本之间取得平衡;动态窗口大小的研究留待未来探索。
  • 对 LLM 的依赖 – 该方法继承了底层 LLM 服务的延迟和成本特性;离线微调或蒸馏模型可以缓解此问题。
  • 向非微服务领域的泛化 – 虽然作者认为该方法可迁移,但在单体或边缘计算环境中的验证仍未完成。
  • 可解释性 – 递归提示会生成中间假设,但如何在面向开发者的 UI 中展示尚未涉及。未来工作可以集成可视化推理轨迹。

总体而言,AMER‑RCL 弥合了类人 SRE 推理与自动化 LLM 推断之间的差距,为实现更可靠的微服务运维提供了实用路径。

作者

  • Lingzhe Zhang
  • Tong Jia
  • Yunpeng Zhai
  • Leyi Pan
  • Chiming Duan
  • Minghua He
  • Mengxi Jia
  • Ying Li

论文信息

  • arXiv ID: 2601.02732v1
  • 分类: cs.SE, cs.AI
  • 出版时间: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »