[Paper] IOAgent：通过 LLMs 实现可信 HPC I/O 性能诊断能力的民主化

发布: 3天前 (2026年2月25日 GMT+8 23:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.22017v1

概述

本文介绍了 IOAgent，一种由 AI 驱动的助手，能够为日常 HPC 用户提供专家级的 I/O 性能诊断。通过将大语言模型（LLMs）与领域特定知识库相结合，IOAgent 可以自动分析 Darshan I/O 跟踪，定位瓶颈，并解释其推理过程——使缺乏专职 I/O 专家的科学家也能进行可信赖的性能调试。

关键贡献

端到端诊断流水线，结合模块化预处理器、检索增强生成（RAG）知识整合器和基于树的答案合并器，以处理长追踪文件。
TraceBench，首个公开发布的标记化 HPC I/O 追踪基准套件，用于系统评估诊断工具。
模型无关设计：IOAgent 可与专有模型（如 GPT‑4）和开源模型（如 LLaMA）一起使用，且不牺牲准确性。
可解释输出：每个诊断都附带详细的理由说明和相关文档引用，模拟人类 I/O 专家的工作流程。
交互式查询界面，让用户提出后续问题，实现对话式调试体验。

方法论

Trace Ingestion & Pre‑processing – 原始 Darshan 跟踪（通常为兆字节）被拆分为逻辑块（例如，按 MPI rank、按 I/O 阶段）。轻量级解析器提取关键指标（传输字节数、操作计数、时间戳）。
Domain Knowledge Retrieval – 对 HPC 存储文档、最佳实践指南以及以往诊断报告的精选语料库进行索引。当跟踪块输入 LLM 时，RAG 组件获取最相关的段落，以支撑模型的推理。
LLM Reasoning – 选定的 LLM 接收该块及检索到的知识作为上下文。通过提示工程迫使模型生成结构化诊断（症状、根本原因、建议修复），并引用支持性段落。
Tree‑Based Merger – 将各块级诊断合并为连贯的层次化报告。冲突通过投票机制解决，优先选择置信度更高、引用更充分的诊断。
Interactive Layer – 用户可以查询最终报告（例如，“为什么我的集合 I/O 很慢？”），系统会重新通过 LLM 运行相关子树，保留原始的论证链。

结果与发现

准确性：在 TraceBench（≈1,200 条标记的跟踪）上，IOAgent 达到了 92 % 的正确诊断率，超过了之前的最先进工具 IOTrace（84 %）。
可解释性：IOAgent 的报告中有 96 % 包含至少一个可验证的引用，而基线仅使用 LLM 的方法因幻觉问题只有 68 %。
LLM 独立性：对 GPT‑4、Claude 和开源 LLaMA‑2‑13B 的实验显示诊断质量的差异不足 3 %，证实了该流水线的模型无关特性。
性能：端到端延迟平均为每条跟踪 12 秒（≈200 MB），远低于交互式使用场景的限制。
用户研究：一小组领域科学家在采用 IOAgent 后报告称 I/O 调试时间减少了 45 %。

实际影响

民主化专业知识 – 小型研究团队现在可以在不雇佣专职存储工程师的情况下获得可靠的 I/O 诊断，加速数据密集型工作负载的科研进程。
集成到作业调度器 – IOAgent 可以接入 Slurm 或 PBS，自动分析已完成的作业并在作业的事后日志中提供性能建议。
持续监控 – 通过实时输入 Darshan 跟踪，管理员可以主动检测新出现的存储异常（例如争用、未对齐的 I/O），在其影响生产运行之前进行处理。
供应商中立调优 – 由于系统依赖通用的存储知识而非特定供应商的启发式规则，可在异构 HPC 集群（Lustre、GPFS、BeeGFS）中部署。
开源生态系统 – 已发布的 TraceBench 与模块化流水线邀请社区扩展，例如添加对其他跟踪格式（如 Score‑P）或自定义领域语料库的支持。

限制与未来工作

上下文窗口仍受限 – 超大追踪（>1 GB）需要额外的分块启发式方法，可能会遗漏跨块的关联。
知识库陈旧 – 必须定期刷新 RAG 语料库，以跟上不断演进的存储技术和供应商文档。
边缘情况的幻觉风险 – 尽管已减轻，但当大语言模型超出检索材料进行推断时，仍会出现罕见的误诊。
交互查询的可扩展性 – 对海量报告的实时跟进可能导致延迟；未来工作将探索缓存和增量推理。
更广泛的基准测试 – 计划将 TraceBench 扩展至包括新兴工作负载（如 AI 模型检查点）和多租户云‑HPC 环境。

IOAgent 展示了当大语言模型与领域特定检索和结构化合并紧密结合时，如何将小众专家技能转化为广泛可用的服务——开启了 AI 辅助 HPC 性能工程的新时代。

作者

Chris Egersdoerfer
Arnav Sareen
Jean Luca Bez
Suren Byna
Dongkuan
Xu
Dong Dai

论文信息

arXiv ID: 2602.22017v1
类别: cs.DC
出版日期: 2026年2月25日
PDF: 下载 PDF

[Paper] IOAgent：通过 LLMs 实现可信 HPC I/O 性能诊断能力的民主化

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] STELLAR：存储调优引擎利用 LLM 自主推理实现高性能并行文件系统

[Paper] 工作负载浮力：通过识别共享资源瓶颈让 Apps 保持漂浮

[Paper] 混合共识与量子Sybil抗性

[Paper] LLMTailor：一种层级式定制工具，用于大语言模型的高效检查点