【论文】KORAL:知识图谱引导的 LLM 推理用于 SSD 运营分析
发布: (2026年2月11日 GMT+8 03:40)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10246v1
概述
本文介绍了 KORAL,一个将大型语言模型(LLMs)与特定领域知识图谱(KG)相结合的创新框架,用于推理固态硬盘(SSD)的健康状况和性能。通过将碎片化的遥测数据和分散的文献转化为统一、可查询的图谱,KORAL 使 LLM 能够在无需传统方法所需的大规模数据标注工作量的情况下,生成专家级的诊断、预测和处方性操作。
关键贡献
- 混合 LLM + KG 架构,将结构化知识输入语言模型,确保解释基于 SSD 领域事实。
- 自动化 KG 构建,从原始遥测数据(Data KG)和现有技术文档(Literature KG)构建,弥合非结构化日志与结构化推理之间的鸿沟。
- 端到端推理流水线,覆盖 SSD 的描述性、预测性、规范性和“假设”分析——在存储系统研究中首创。
- 基于证据的输出:每条建议均附带 KG 节点的引用,使推理可追溯、可审计。
- 开源发布 SSD 专用 KG 与代码,支持可重复性和社区扩展。
方法论
- Telemetry Ingestion – 原始 SSD 指标(温度、磨损水平、I/O 延迟等)从生产服务器实时流式传输。
- Data KG Generation – 轻量级提取器将带时间戳的遥测映射为实体(例如 Device‑A、Temperature)和关系(例如 has‑value、observed‑during)。
- Literature KG Integration – 通过 NLP 流程解析论文、供应商手册和故障报告;关键概念(例如 read‑disturb、thermal throttling)成为节点,并通过因果边相连。
- LLM Prompt Engineering – 大语言模型接收一个 contextual prompt,其中包括:
- 自然语言查询(例如 “为什么节点 X 昨晚的延迟激增?”)
- 从组合 KG 中提取的相关子图(通过基于图的检索)。
- Reasoning & Explanation – 大语言模型在生成答案时引用 KG 节点,有效地将输出“落地”在事实数据上。
- Prescriptive Action Generation – 对于已诊断的问题,系统查询 KG 中已知的缓解措施(例如 reduce write‑amplification),大语言模型将其重新表述为可执行的步骤。
该流水线是模块化的:更换大语言模型(例如 GPT‑4、LLaMA)或更新 KG 均无需重新设计整个系统。
结果与发现
- 准确性 – 在200个真实 SSD 事件的基准测试中,KORAL 的诊断与高级存储工程师的结果匹配率为 92%,优于基线统计模型(68%)。
- 可解释性 – 生成的报告中有 87% 至少包含一个 KG 引用,操作员在用户研究中将解释评为 “清晰且可信”(平均 Likert 评分 4.6/5)。
- 速度 – 端到端查询延迟平均为 1.8 秒,实现了近实时故障排除。
- 降低人工工作量 – 操作员报告说收集日志和交叉参考文档的时间减少了 45%。
- 假设情景 – 模拟温度峰值显示,KORAL 能够在 2 小时内预测错误率提升 15%,从而实现主动限流操作。
实际意义
- 运维团队 可以将 KORAL 嵌入监控仪表盘,实时收到基于证据的警报,而不是仅仅看到原始指标峰值。
- 容量规划 工具可以查询 KG 中的长期磨损趋势,从而制定更精确的 SSD 更换计划。
- 供应商集成 – 制造商可以将固件发布说明导入文献 KG,使系统在出现相关症状时自动建议固件升级。
- 开发者 API – 开源仓库提供 REST 接口;开发者可以以编程方式询问 “针对该工作负载,哪种缓解措施可以降低读扰动?” 并获得简洁、带引用的答案。
- 跨领域扩展 – 相同的 KG‑LLM 模式可应用于其他硬件组件(例如 HDD、GPU)或甚至云服务健康诊断。
Limitations & Future Work
- KG 完整性 – 推理质量取决于文献 KG 的广度;未在源文档中捕获的罕见失效模式可能会被遗漏。
- LLM 幻觉风险 – 虽然 KG grounding 能降低幻觉,但当 KG 缺乏直接答案时,LLM 仍可能生成看似合理但不正确的陈述。
- KG 更新的可扩展性 – 持续摄取新遥测和文献需要自动化验证流水线,以避免图谱漂移。
- 评估范围 – 实验仅在单一数据中心环境中进行;需要在异构 SSD 型号和工作负载上进行更广泛的验证。
- 未来方向 – 作者计划 (1) 集成主动学习循环,让操作员反馈细化 KG 边缘;(2) 探索检索增强生成(RAG)模型,能够原生查询 KG;以及 (3) 将框架扩展到多组件系统诊断(例如存储‑网络‑计算协同分析)。
作者
- Mayur Akewar
- Sandeep Madireddy
- Dongsheng Luo
- Janki Bhimani
论文信息
- arXiv ID: 2602.10246v1
- 分类: cs.DC, cs.AI
- 发表时间: 2026年2月10日
- PDF: 下载 PDF