【论文】LLM4Perf:大语言模型是多目标性能建模的有效采样器 (Copy)
发布: (2025年12月18日 GMT+8 09:35)
7 min read
原文: arXiv
Source: arXiv - 2512.16070v1
概述
现代软件系统提供数十甚至数百个配置旋钮,这些旋钮会显著影响延迟、吞吐量、能耗以及其他质量属性。选择正确的设置是一个经典的多目标优化问题,但传统的抽样技术往往错过配置空间中有前景的区域。论文 “LLM4Perf: Large Language Models Are Effective Samplers for Multi‑Objective Performance Modeling” 探讨了大型语言模型(LLM)是否可以充当智能抽样器,利用它们对文档和代码的理解来裁剪并引导搜索。作者构建了一个名为 LLM4Perf 的反馈驱动框架,并展示了它在多个真实世界的高度可配置系统上始终优于传统基线。
关键贡献
- 基于 LLM 的采样框架 (LLM4Perf),结合配置文档的语义解析和迭代反馈,以优化采样策略。
- 对四个开源、高度可配置的系统进行全面的实证评估,涵盖共计 112 个多目标场景。
- 定量优势证据: LLM4Perf 在 68.8 % 的场景中实现最佳性能,其剪枝步骤在 91.5 % 的案例中提升了基线方法。
- 深入分析 不同 LLM 组件(提示设计、温度、相关文档检索)和超参数如何影响采样效果。
- 为社区发布了 开源实现 和可复现的实验脚本。
方法论
-
配置空间提取
- 大语言模型(LLM)解析系统文档(README、配置文件、注释),构建每个配置选项的语义映射,包括其类型以及任何文档中记录的约束。
-
初始剪枝
- 使用语义映射,LLM 排除明显不可行或影响低的设置(例如互斥标志、与性能无关的选项)。
-
反馈循环
- 从配置空间中抽取一小批样本,并在目标性能指标上进行评估(如延迟、内存、能耗)。
- 将测得的结果反馈给 LLM,LLM 更新对有前景区域的内部信念,并生成新一批样本。
-
迭代细化
- 步骤 2‑3 在固定预算(例如 100 次评估)内重复。该过程在探索(尝试多样化设置)和利用(聚焦高性能区域)之间取得平衡。
-
基线比较
- 作者将 LLM4Perf 与经典采样器进行比较,如随机采样、拉丁超立方采样以及进化多目标优化器(例如 NSGA‑II)。
所有实验在相同硬件上运行,性能使用标准的多目标质量指标(超体积、代际距离)进行测量。
结果与发现
| 系统 | 目标 | LLM4Perf 胜场 | 基线 胜场 | 相对超体积提升 |
|---|---|---|---|---|
| Hadoop | 吞吐量,能耗 | 22 / 32 | 10 / 32 | +18 % |
| Spark | 延迟,内存 | 19 / 28 | 5 / 28 | +21 % |
| TensorFlow | 训练时间,准确率 | 18 / 26 | 4 / 26 | +15 % |
| PostgreSQL | 查询延迟,CPU | 18 / 26 | 8 / 26 | +12 % |
- 整体胜率: 112 场情景中获胜 77 场(≈68.8 %)。
- 剪枝影响: 当对基线采样器应用 LLM 的剪枝步骤时,其性能在 448 案例中有 410 例得到提升(≈91.5 %)。
- 组件分析: 提示工程(包括显式约束语言)和适度的温度(0.7)能够产生最可靠的采样;过于确定(温度 = 0)或过于随机(温度 = 1.0)的设置会降低性能。
- 样本效率: LLM4Perf 以 约 30 % 更少的评估次数 达到与 NSGA‑II 相当的超体积,凸显了其样本效率优势。
实际意义
- 更快的配置调优: DevOps 工程师可以将 LLM4Perf 集成到 CI 流水线中,自动在部署前建议高性能的配置组合,减少手动的反复试验。
- 降低云成本: 通过快速收敛到节能的设置,云运营商可以降低大规模数据处理框架(如 Hadoop、Spark)的计算时长费用。
- 基于文档的优化: 维护丰富配置文档的团队能够立即获得投资回报——LLM 将这些文本知识转化为可执行的采样指导。
- 可与现有优化器即插即用: 剪枝模块可以添加到任何优化器(如贝叶斯优化、遗传算法),在不重写核心算法的情况下提升其效果。
- 低开销采用: 由于 LLM 推理成本较低(在标准 GPU 上每次提示仅需几百毫秒),整体运行时间仍主要由实际系统评估决定,使该方法在本地环境中也具备实用性。
限制与未来工作
- LLM 知识新鲜度: 该方法依赖于 LLM 理解当前文档的能力;过时或写得不好的文档可能误导采样器。
- 对超高维空间的可扩展性: 虽然剪枝有帮助,但该方法已在约 150 个选项的配置空间上进行测试;极大的空间仍可能需要混合策略。
- 模型规模与成本的权衡: 更大的 LLM(例如 GPT‑4)可能提升语义解析,但会增加推理成本;探索轻量化微调模型是一个开放方向。
- 跨领域的泛化能力: 本研究聚焦于系统软件;将 LLM4Perf 应用于其他领域(如嵌入式固件、网络栈调优)需要进一步研究。
作者建议将反馈回路扩展为包含 在线 性能遥测,并探索 多 LLM 集成 以减轻单模型偏差。
作者
- Xin Wang
- Zhenhao Li
- Zishuo Ding
论文信息
- arXiv ID: 2512.16070v1
- 分类: cs.SE
- 发表时间: 2025年12月18日
- PDF: Download PDF