【论文】KORAL:知识图谱引导的 LLM 推理用于 SSD 运营分析

发布: (2026年2月11日 GMT+8 03:40)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10246v1

概述

本文介绍了 KORAL,一个将大型语言模型(LLMs)与特定领域知识图谱(KG)相结合的创新框架,用于推理固态硬盘(SSD)的健康状况和性能。通过将碎片化的遥测数据和分散的文献转化为统一、可查询的图谱,KORAL 使 LLM 能够在无需传统方法所需的大规模数据标注工作量的情况下,生成专家级的诊断、预测和处方性操作。

关键贡献

  • 混合 LLM + KG 架构,将结构化知识输入语言模型,确保解释基于 SSD 领域事实。
  • 自动化 KG 构建,从原始遥测数据(Data KG)和现有技术文档(Literature KG)构建,弥合非结构化日志与结构化推理之间的鸿沟。
  • 端到端推理流水线,覆盖 SSD 的描述性、预测性、规范性和“假设”分析——在存储系统研究中首创。
  • 基于证据的输出:每条建议均附带 KG 节点的引用,使推理可追溯、可审计。
  • 开源发布 SSD 专用 KG 与代码,支持可重复性和社区扩展。

方法论

  1. Telemetry Ingestion – 原始 SSD 指标(温度、磨损水平、I/O 延迟等)从生产服务器实时流式传输。
  2. Data KG Generation – 轻量级提取器将带时间戳的遥测映射为实体(例如 Device‑ATemperature)和关系(例如 has‑valueobserved‑during)。
  3. Literature KG Integration – 通过 NLP 流程解析论文、供应商手册和故障报告;关键概念(例如 read‑disturbthermal throttling)成为节点,并通过因果边相连。
  4. LLM Prompt Engineering – 大语言模型接收一个 contextual prompt,其中包括:
    • 自然语言查询(例如 “为什么节点 X 昨晚的延迟激增?”)
    • 从组合 KG 中提取的相关子图(通过基于图的检索)。
  5. Reasoning & Explanation – 大语言模型在生成答案时引用 KG 节点,有效地将输出“落地”在事实数据上。
  6. Prescriptive Action Generation – 对于已诊断的问题,系统查询 KG 中已知的缓解措施(例如 reduce write‑amplification),大语言模型将其重新表述为可执行的步骤。

该流水线是模块化的:更换大语言模型(例如 GPT‑4、LLaMA)或更新 KG 均无需重新设计整个系统。

结果与发现

  • 准确性 – 在200个真实 SSD 事件的基准测试中,KORAL 的诊断与高级存储工程师的结果匹配率为 92%,优于基线统计模型(68%)。
  • 可解释性 – 生成的报告中有 87% 至少包含一个 KG 引用,操作员在用户研究中将解释评为 “清晰且可信”(平均 Likert 评分 4.6/5)。
  • 速度 – 端到端查询延迟平均为 1.8 秒,实现了近实时故障排除。
  • 降低人工工作量 – 操作员报告说收集日志和交叉参考文档的时间减少了 45%。
  • 假设情景 – 模拟温度峰值显示,KORAL 能够在 2 小时内预测错误率提升 15%,从而实现主动限流操作。

实际意义

  • 运维团队 可以将 KORAL 嵌入监控仪表盘,实时收到基于证据的警报,而不是仅仅看到原始指标峰值。
  • 容量规划 工具可以查询 KG 中的长期磨损趋势,从而制定更精确的 SSD 更换计划。
  • 供应商集成 – 制造商可以将固件发布说明导入文献 KG,使系统在出现相关症状时自动建议固件升级。
  • 开发者 API – 开源仓库提供 REST 接口;开发者可以以编程方式询问 “针对该工作负载,哪种缓解措施可以降低读扰动?” 并获得简洁、带引用的答案。
  • 跨领域扩展 – 相同的 KG‑LLM 模式可应用于其他硬件组件(例如 HDD、GPU)或甚至云服务健康诊断。

Limitations & Future Work

  • KG 完整性 – 推理质量取决于文献 KG 的广度;未在源文档中捕获的罕见失效模式可能会被遗漏。
  • LLM 幻觉风险 – 虽然 KG grounding 能降低幻觉,但当 KG 缺乏直接答案时,LLM 仍可能生成看似合理但不正确的陈述。
  • KG 更新的可扩展性 – 持续摄取新遥测和文献需要自动化验证流水线,以避免图谱漂移。
  • 评估范围 – 实验仅在单一数据中心环境中进行;需要在异构 SSD 型号和工作负载上进行更广泛的验证。
  • 未来方向 – 作者计划 (1) 集成主动学习循环,让操作员反馈细化 KG 边缘;(2) 探索检索增强生成(RAG)模型,能够原生查询 KG;以及 (3) 将框架扩展到多组件系统诊断(例如存储‑网络‑计算协同分析)。

作者

  • Mayur Akewar
  • Sandeep Madireddy
  • Dongsheng Luo
  • Janki Bhimani

论文信息

  • arXiv ID: 2602.10246v1
  • 分类: cs.DC, cs.AI
  • 发表时间: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »