[论文] TAAF:协同知识图谱与LLMs的跟踪抽象与分析框架
发布: (2026年1月6日 GMT+8 09:04)
7 min read
原文: arXiv
Source: arXiv - 2601.02632v1
概述
本文提出了 TAAF(Trace Abstraction and Analysis Framework),一种将海量低层执行跟踪——比如 Chrome、MySQL 或操作系统调度器的内核日志——转化为简洁、可查询洞察的新方法。通过将 time‑indexed knowledge graphs 与 large language models (LLMs) 结合,TAAF 让开发者能够用自然语言询问跟踪相关的问题,并在无需编写自定义脚本的情况下获得准确答案。
关键贡献
- 时间索引知识图谱 (KG) 构建,直接从原始跟踪事件中捕获线程、CPU、I/O 设备及其他系统实体之间的时间和关系信息。
- LLM 驱动的查询引擎,为用户的自然语言问题提取相关子图并生成精确答案,支持多跳和因果推理。
- TraceQA‑100 基准:一个由真实内核跟踪衍生的 100 条现实问题组成的精心策划集合,用于系统评估跟踪分析工具。
- 实证提升:在三种 LLM 后端和多种时间切片策略下,TAAF 将答案准确率提升至 31.2 %,相较基线脚本分析有显著提升,尤其在复杂的多步骤查询上。
- 错误分析框架,能够定位图结构推理有帮助的情形,以及 LLM 幻觉或图不完整导致性能下降的情况。
方法论
- 跟踪摄取与规范化 – 原始日志被解析为原子事件(例如,“线程 T1 在 CPU C2 上于 t=1234 被调度”)。
- 时间索引 – 事件被划分到滑动窗口中(例如,1 ms,10 ms),以在保持顺序的同时使图的规模可控。
- 知识图谱构建 – 节点代表实体(线程、进程、资源),边编码关系(“运行于”、“锁定”、“写入”)并附带时间戳。
- 查询处理 –
- 用户编写自然语言问题(例如,“哪个线程导致了 5 s 时的 CPU 停顿?”)。
- 轻量检索器选择最可能相关的时间窗口。
- 将对应的子图序列化(节点/边列表 + 时间戳),并作为包含简短“图转文本”模式的提示输入 LLM。
- LLM 生成简明答案,可选附带理由追踪。
- 评估 – 将答案与 TraceQA‑100 的真实值进行比较,使用精确匹配和 F1 指标。实验在不同 LLM(GPT‑4、Claude‑2、Llama‑2)和 KG 的时间粒度上进行。
结果与发现
| 设置 | 基线(仅脚本) | TAAF(最佳 LLM) | Δ 准确率 |
|---|---|---|---|
| 单跳事实问答 | 78.4 % | 85.9 % | +7.5 % |
| 多跳推理 | 62.1 % | 84.3 % | +22.2 % |
| 因果链(例如,“是什么触发了 X?”) | 55.0 % | 86.2 % | +31.2 % |
| 窗口大小变化(10 毫秒 vs. 1 秒) | – | 小窗口提升对细粒度 bug 的精确度,大窗口有助于高层次性能查询。 |
- 图形对齐 在需要将多个事件拼接在一起的问题上表现突出(例如,“线程 A 在死锁之前是否抢占了线程 B?”)。
- LLM 选择很重要:GPT‑4 始终优于开源的 Llama‑2,但 Claude‑2 在噪声子图上对幻觉的抵抗力更强。
- 失败模式:当知识图谱遗漏罕见系统调用或时间戳过于粗糙时,LLM 有时会编造看似合理但错误的答案。
实际影响
- 减少调试工作量 – 工程师可以询问 “Why did request #42 take 200 ms?” 并获得基于追踪的答案,而无需编写自定义解析器。
- 加速性能调优 – 性能团队可以查询 “Which CPU core experienced the highest cache‑miss rate during the load test?” 并立即收到排名列表。
- 跨团队知识共享 – 运维、安全和开发团队可以使用统一的自然语言界面来探索相同的追踪数据,降低非内核专家的使用门槛。
- 工具集成 – TAAF 的 KG 可以导出到 Neo4j 或 GraphQL 端点,使现有的可观测性堆栈(Grafana、Elastic)能够嵌入 LLM 驱动的洞察。
- 成本效益分析 – 通过将 LLM 调用限制在聚焦的子图而不是整个追踪,框架保持 API 使用量(从而云成本)在适度范围内。
限制与未来工作
- KG 的可扩展性 – 极长的跟踪(数小时的内核活动)仍会生成占用大量内存的图;需要增量剪枝或摘要。
- LLM 幻觉风险 – 当图不完整时,模型可能会用看似合理但错误的陈述“填补空白”;更严格的 grounding 检查是一个开放的研究方向。
- 领域特定词汇 – 当前的提示模板假设通用操作系统概念;要扩展到专门领域(例如 GPU 驱动、分布式数据库),需要自定义模式定义。
- 基准覆盖范围 – TraceQA‑100 侧重于内核跟踪;未来的基准应涵盖用户空间日志、云原生微服务跟踪以及安全相关事件。
底线:TAAF 证明,将结构化、时间感知的图与 LLM 推理相结合可以显著提升跟踪分析的可访问性和准确性,为更智能、面向开发者的可观测性工具打开了大门。
作者
- Alireza Ezaz
- Ghazal Khodabandeh
- Majid Babaei
- Naser Ezzati-Jivan
论文信息
- arXiv ID: 2601.02632v1
- 分类: cs.SE, cs.AI
- 发表时间: 2026年1月6日
- PDF: 下载 PDF