[Paper] STELLAR：存储调优引擎利用 LLM 自主推理实现高性能并行文件系统

发布: 3天前 (2026年2月27日 GMT+8 01:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23220v1

概述

本文介绍了 STELLAR，一种自主调优引擎，利用大语言模型（LLMs）来优化高性能并行文件系统的配置。通过将传统上手动、反复试验的 I/O 调优过程转化为快速、数据驱动的循环，STELLAR 能在仅几次运行中找到接近最优的设置，使得缺乏深厚系统专业知识的科学家和工程师也能实际进行存储性能调优。

关键贡献

基于 LLM 的端到端调优流水线，从文档中提取可调参数，解释 I/O 跟踪，并迭代细化配置。
检索增强生成（RAG）+ 工具使用 架构，将 LLM 推理基于真实系统数据，显著降低幻觉。
多代理设计，通过让不同代理专注于提取、分析和策略选择，稳定决策过程。
实证证据表明，STELLAR 在未见工作负载的前五次调优尝试内即可达到接近最优的性能，而传统自动调优器可能需要数千次迭代。
知识库反馈循环，捕获成功的调优模式以供未来应用复用，使每一次运行都成为系统的学习经验。

方法论

参数提取 – LLM 阅读并行文件系统的手册（例如 Lustre、GPFS），并构建所有可配置参数（条带大小、I/O 调度器、缓存策略等）的结构化列表。
跟踪分析 – 将应用的 I/O 跟踪日志输入 LLM，LLM 识别工作负载特征（读/写比例、访问模式、并发级别）。
初始策略选择 – 基于提取的参数和跟踪洞察，LLM 提出一小组有前景的配置（通常只有一两个）。
执行与反馈 – 系统在真实集群上使用所选设置运行应用，测量吞吐量/延迟，并记录结果。
迭代细化 – LLM 根据性能反馈进行推理，调整配置，并重复第 3‑4 步。
知识整合 – 收敛后，系统将调优过程总结为可复用的知识条目（例如 “对于写密集、小文件工作负载，条带大小 = 64 KB 效果最佳”。）

该流水线由 多代理框架 编排：

提取器代理 负责文档解析。
分析器代理 解释跟踪数据。
规划器代理 提出配置方案。
执行器代理 运行工作负载并报告指标。

在整个过程中使用 RAG 从手册或已有调优日志中拉取相关片段，使 LLM 的推理基于事实数据。

结果与发现

收敛速度： 在 30 个基准应用的 90 % 中，STELLAR 在 5 次迭代内找到了一个其吞吐量在全局最优值 ± 3 % 范围内的配置（该全局最优值通过穷举搜索确定）。
搜索空间缩减： 与朴素的网格搜索或随机搜索相比，LLM 引导的方法将有效搜索空间削减了 > 99 %。
对未见工作负载的鲁棒性： 即使是训练数据中未出现的应用，系统基于追踪模式的推理也能很好地泛化。
消融研究： 移除 RAG 或多代理协同会使平均所需迭代次数从 5 增加到 27，验证了 grounding（基于知识库的推理）和专门化的重要性。

Practical Implications

For system administrators: STELLAR 可以作为“即插即用”服务部署，能够在新作业到达时持续优化存储设置，降低对手动调优专业知识的需求。
For developers of data‑intensive pipelines: 团队可以专注于算法工作，而不是低层 I/O 参数；调优器会自动适应不断变化的数据规模或访问模式。
For cloud and HPC providers: 将 STELLAR 嵌入作业提交门户可以提升整体集群利用率，并通过在不进行硬件升级的情况下挤出额外的 I/O 性能，从而降低每计算小时的成本。
For other optimization domains: 论文中的架构（LLM + RAG + 多代理循环）可复用于调优编译器、网络协议栈，甚至在每次评估成本高昂的机器学习流水线中进行超参数选择。

限制与未来工作

依赖高质量文档： 如果手册内容稀疏或过时，参数提取可能会遗漏关键调节项。
真实系统运行的可扩展性： 虽然迭代次数少，但每次迭代仍需完整执行应用程序，对于非常长的作业成本可能很高。
幻觉风险： 尽管通过 RAG 和多代理检查有所缓解，但仍观察到偶尔出现不正确的 LLM 建议，尤其是针对不常见的参数。
未来方向 包括：
1. 集成基于仿真的代理，以更快评估配置。
2. 将知识库扩展到跨集群环境。
3. 探索针对特定领域微调的 LLM，以进一步降低幻觉。

作者

Chris Egersdoerfer
Philip Carns
Shane Snyder
Robert Ross
Dong Dai

论文信息

arXiv ID: 2602.23220v1
分类: cs.DC
发布日期: 2026年2月26日
PDF: 下载 PDF

[Paper] STELLAR：存储调优引擎利用 LLM 自主推理实现高性能并行文件系统

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 工作负载浮力：通过识别共享资源瓶颈让 Apps 保持漂浮

Terraform 解释：从“这到底是什么？”到真正掌握 🚀

可伸缩企业 Web 路由：Azure App Gateway + VMSS 与 Azure CLI

KubeCon + CloudNativeCon Europe 2026 同场活动深度解析：BackstageCon