【论文】KORAL：知识图谱引导的 LLM 推理用于 SSD 运营分析

发布: 2天前 (2026年2月11日 GMT+8 03:40)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10246v1

概述

本文介绍了 KORAL，一个将大型语言模型（LLMs）与特定领域知识图谱（KG）相结合的创新框架，用于推理固态硬盘（SSD）的健康状况和性能。通过将碎片化的遥测数据和分散的文献转化为统一、可查询的图谱，KORAL 使 LLM 能够在无需传统方法所需的大规模数据标注工作量的情况下，生成专家级的诊断、预测和处方性操作。

关键贡献

混合 LLM + KG 架构，将结构化知识输入语言模型，确保解释基于 SSD 领域事实。
自动化 KG 构建，从原始遥测数据（Data KG）和现有技术文档（Literature KG）构建，弥合非结构化日志与结构化推理之间的鸿沟。
端到端推理流水线，覆盖 SSD 的描述性、预测性、规范性和“假设”分析——在存储系统研究中首创。
基于证据的输出：每条建议均附带 KG 节点的引用，使推理可追溯、可审计。
开源发布 SSD 专用 KG 与代码，支持可重复性和社区扩展。

方法论

Telemetry Ingestion – 原始 SSD 指标（温度、磨损水平、I/O 延迟等）从生产服务器实时流式传输。
Data KG Generation – 轻量级提取器将带时间戳的遥测映射为实体（例如 Device‑A、Temperature）和关系（例如 has‑value、observed‑during）。
Literature KG Integration – 通过 NLP 流程解析论文、供应商手册和故障报告；关键概念（例如 read‑disturb、thermal throttling）成为节点，并通过因果边相连。
LLM Prompt Engineering – 大语言模型接收一个 contextual prompt，其中包括：
- 自然语言查询（例如 “为什么节点 X 昨晚的延迟激增？”）
- 从组合 KG 中提取的相关子图（通过基于图的检索）。
Reasoning & Explanation – 大语言模型在生成答案时引用 KG 节点，有效地将输出“落地”在事实数据上。
Prescriptive Action Generation – 对于已诊断的问题，系统查询 KG 中已知的缓解措施（例如 reduce write‑amplification），大语言模型将其重新表述为可执行的步骤。

该流水线是模块化的：更换大语言模型（例如 GPT‑4、LLaMA）或更新 KG 均无需重新设计整个系统。

结果与发现

准确性 – 在200个真实 SSD 事件的基准测试中，KORAL 的诊断与高级存储工程师的结果匹配率为 92%，优于基线统计模型（68%）。
可解释性 – 生成的报告中有 87% 至少包含一个 KG 引用，操作员在用户研究中将解释评为 “清晰且可信”（平均 Likert 评分 4.6/5）。
速度 – 端到端查询延迟平均为 1.8 秒，实现了近实时故障排除。
降低人工工作量 – 操作员报告说收集日志和交叉参考文档的时间减少了 45%。
假设情景 – 模拟温度峰值显示，KORAL 能够在 2 小时内预测错误率提升 15%，从而实现主动限流操作。

实际意义

运维团队 可以将 KORAL 嵌入监控仪表盘，实时收到基于证据的警报，而不是仅仅看到原始指标峰值。
容量规划 工具可以查询 KG 中的长期磨损趋势，从而制定更精确的 SSD 更换计划。
供应商集成 – 制造商可以将固件发布说明导入文献 KG，使系统在出现相关症状时自动建议固件升级。
开发者 API – 开源仓库提供 REST 接口；开发者可以以编程方式询问 “针对该工作负载，哪种缓解措施可以降低读扰动？” 并获得简洁、带引用的答案。
跨领域扩展 – 相同的 KG‑LLM 模式可应用于其他硬件组件（例如 HDD、GPU）或甚至云服务健康诊断。

Limitations & Future Work

KG 完整性 – 推理质量取决于文献 KG 的广度；未在源文档中捕获的罕见失效模式可能会被遗漏。
LLM 幻觉风险 – 虽然 KG grounding 能降低幻觉，但当 KG 缺乏直接答案时，LLM 仍可能生成看似合理但不正确的陈述。
KG 更新的可扩展性 – 持续摄取新遥测和文献需要自动化验证流水线，以避免图谱漂移。
评估范围 – 实验仅在单一数据中心环境中进行；需要在异构 SSD 型号和工作负载上进行更广泛的验证。
未来方向 – 作者计划 (1) 集成主动学习循环，让操作员反馈细化 KG 边缘；(2) 探索检索增强生成（RAG）模型，能够原生查询 KG；以及 (3) 将框架扩展到多组件系统诊断（例如存储‑网络‑计算协同分析）。

作者

Mayur Akewar
Sandeep Madireddy
Dongsheng Luo
Janki Bhimani

论文信息

arXiv ID: 2602.10246v1
分类: cs.DC, cs.AI
发表时间: 2026年2月10日
PDF: 下载 PDF

【论文】KORAL：知识图谱引导的 LLM 推理用于 SSD 运营分析

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用