[论文] 基于Agentic Memory增强的递归推理用于微服务中的根因定位

发布: 1个月前 (2026年1月6日 GMT+8 13:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.02732v1

概述

微服务架构如今为许多大型应用提供动力，但其庞大的规模和相互依赖性使得故障诊断变得困难。本文提出了 AMER‑RCL 框架，它将递归推理与“代理记忆”相结合，使大语言模型（LLM）能够更像经验丰富的站点可靠性工程师（SRE）一样思考。作者展示了该方法在提升根因定位准确率的同时，还能降低推理延迟。

关键贡献

Empirical SRE study – 对多个组织的访谈揭示了专家故障排查的三个标志：递归细化、多维扩展和跨模态推理。
Recursive Reasoning Engine (RCL) – 一个多代理 LLM 系统，迭代地缩小每个警报的候选原因，模拟 SRE 的逐步推理过程。
Agentic Memory layer – 一个轻量级、基于时间窗口的存储层，捕获先前处理的警报推理痕迹并复用，以避免重复工作。
Comprehensive evaluation – 在真实微服务故障数据集上的基准测试显示，相较于之前的基于图的、深度学习的以及仅 LLM 的基线，在准确率（最高提升 +12 % F1）和延迟（平均推理时间降低 ‑30 %）方面均有一致提升。
Open‑source prototype – 作者发布了最小实现和一套可复现的脚本，鼓励社区采纳和进一步研究。

方法论

数据收集与标注 – 团队从生产微服务集群中收集了告警日志、追踪跨度和配置快照，然后让 SRE 对真实根因进行标注。
Agentic Memory 设计 – 一个以告警签名（例如服务名称、错误模式）为索引的键值存储，保留最新的推理步骤（LLM 提示、中间假设以及最终判定）。该记忆每 T 分钟刷新一次，以保持上下文新鲜。
递归推理循环
- 初始化：使用原始告警。
- 生成假设：使用 LLM（如 GPT‑4），提示其考虑服务依赖、最近的部署以及已知的故障模式。
- 验证：通过工具特定的适配器查询可观测性数据（指标、日志）来验证每个假设。
- 剪枝：剔除低置信度的候选，并将剩余的候选送回 LLM 进行下一轮递归。
- 终止：当置信度超过阈值或达到最大递归深度时结束。
跨告警复用 – 在处理新告警之前，系统会在 Agentic Memory 中查找相似的历史告警；若找到匹配，则将之前的推理轨迹注入提示，使 LLM 能够“站在前人的肩膀上”。
训练与微调 – LLM 保持冻结状态；仅在标注数据集上调优提示模板和 few‑shot 示例，以保持系统轻量且可移植。

Results & Findings

指标	基于图的基线	深度学习（GNN）	仅LLM	AMER‑RCL
F1‑Score (root cause)	0.71	0.78	0.81	0.89
Top‑3 Accuracy	0.84	0.88	0.90	0.95
Avg. Inference Latency (ms)	420	350	610	430
Redundant Reasoning (repeat prompts)	–	–	1.8× per alert	0.9×

准确率提升 来源于递归细化，它能够在早期消除错误假设。
延迟降低 主要得益于 Agentic Memory 复用推理痕迹，将每条警报的 LLM 调用次数削减约 30%。
消融实验 表明，去除递归或记忆组件都会使性能回落到基线水平，验证了它们的互补作用。

实际影响

更快的 MTTR（平均恢复时间） – 通过快速提供更精确的根因建议，SRE 团队可以在更少的人工调查下修复事件。
可扩展的可观测性管道 – 内存层充当廉价缓存；它可以集成到现有的告警路由工具（例如 PagerDuty、Prometheus Alertmanager）中，而不会产生大量计算开销。
跨团队知识共享 – 存储的推理轨迹充当活的知识库，帮助初级工程师从过去的事件中学习，减少“部落知识”的流失。
供应商无关的部署 – 由于 LLM 通过 API 访问，框架只需为指标/日志提供适配器，就可以嵌入任何云原生堆栈（Kubernetes、服务网格等）。
自动化修复的潜力 – 在高置信度的根因下，可以安全地触发下游自动化（例如回滚、断路器激活），实现从检测到自愈的转变。

限制与未来工作

记忆新鲜度权衡 – Agentic Memory 的时间窗口必须在相关性和存储成本之间取得平衡；动态窗口大小的研究留待未来探索。
对 LLM 的依赖 – 该方法继承了底层 LLM 服务的延迟和成本特性；离线微调或蒸馏模型可以缓解此问题。
向非微服务领域的泛化 – 虽然作者认为该方法可迁移，但在单体或边缘计算环境中的验证仍未完成。
可解释性 – 递归提示会生成中间假设，但如何在面向开发者的 UI 中展示尚未涉及。未来工作可以集成可视化推理轨迹。

总体而言，AMER‑RCL 弥合了类人 SRE 推理与自动化 LLM 推断之间的差距，为实现更可靠的微服务运维提供了实用路径。

作者

Lingzhe Zhang
Tong Jia
Yunpeng Zhai
Leyi Pan
Chiming Duan
Minghua He
Mengxi Jia
Ying Li

论文信息

arXiv ID: 2601.02732v1
分类: cs.SE, cs.AI
出版时间: 2026年1月6日
PDF: 下载 PDF

[论文] 基于Agentic Memory增强的递归推理用于微服务中的根因定位

概述

关键贡献

方法论

Results & Findings

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性