【论文】LLM4Perf：大语言模型是多目标性能建模的有效采样器 (Copy)

发布: 1个月前 (2025年12月18日 GMT+8 09:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16070v1

概述

现代软件系统提供数十甚至数百个配置旋钮，这些旋钮会显著影响延迟、吞吐量、能耗以及其他质量属性。选择正确的设置是一个经典的多目标优化问题，但传统的抽样技术往往错过配置空间中有前景的区域。论文 “LLM4Perf: Large Language Models Are Effective Samplers for Multi‑Objective Performance Modeling” 探讨了大型语言模型（LLM）是否可以充当智能抽样器，利用它们对文档和代码的理解来裁剪并引导搜索。作者构建了一个名为 LLM4Perf 的反馈驱动框架，并展示了它在多个真实世界的高度可配置系统上始终优于传统基线。

关键贡献

基于 LLM 的采样框架 (LLM4Perf)，结合配置文档的语义解析和迭代反馈，以优化采样策略。
对四个开源、高度可配置的系统进行全面的实证评估，涵盖共计 112 个多目标场景。
定量优势证据： LLM4Perf 在 68.8 % 的场景中实现最佳性能，其剪枝步骤在 91.5 % 的案例中提升了基线方法。
深入分析 不同 LLM 组件（提示设计、温度、相关文档检索）和超参数如何影响采样效果。
为社区发布了 开源实现 和可复现的实验脚本。

方法论

配置空间提取
- 大语言模型（LLM）解析系统文档（README、配置文件、注释），构建每个配置选项的语义映射，包括其类型以及任何文档中记录的约束。
初始剪枝
- 使用语义映射，LLM 排除明显不可行或影响低的设置（例如互斥标志、与性能无关的选项）。
反馈循环
- 从配置空间中抽取一小批样本，并在目标性能指标上进行评估（如延迟、内存、能耗）。
- 将测得的结果反馈给 LLM，LLM 更新对有前景区域的内部信念，并生成新一批样本。
迭代细化
- 步骤 2‑3 在固定预算（例如 100 次评估）内重复。该过程在探索（尝试多样化设置）和利用（聚焦高性能区域）之间取得平衡。
基线比较
- 作者将 LLM4Perf 与经典采样器进行比较，如随机采样、拉丁超立方采样以及进化多目标优化器（例如 NSGA‑II）。

所有实验在相同硬件上运行，性能使用标准的多目标质量指标（超体积、代际距离）进行测量。

结果与发现

系统	目标	LLM4Perf 胜场	基线胜场	相对超体积提升
Hadoop	吞吐量，能耗	22 / 32	10 / 32	+18 %
Spark	延迟，内存	19 / 28	5 / 28	+21 %
TensorFlow	训练时间，准确率	18 / 26	4 / 26	+15 %
PostgreSQL	查询延迟，CPU	18 / 26	8 / 26	+12 %

整体胜率： 112 场情景中获胜 77 场（≈68.8 %）。
剪枝影响： 当对基线采样器应用 LLM 的剪枝步骤时，其性能在 448 案例中有 410 例得到提升（≈91.5 %）。
组件分析： 提示工程（包括显式约束语言）和适度的温度（0.7）能够产生最可靠的采样；过于确定（温度 = 0）或过于随机（温度 = 1.0）的设置会降低性能。
样本效率： LLM4Perf 以 约 30 % 更少的评估次数 达到与 NSGA‑II 相当的超体积，凸显了其样本效率优势。

实际意义

更快的配置调优： DevOps 工程师可以将 LLM4Perf 集成到 CI 流水线中，自动在部署前建议高性能的配置组合，减少手动的反复试验。
降低云成本： 通过快速收敛到节能的设置，云运营商可以降低大规模数据处理框架（如 Hadoop、Spark）的计算时长费用。
基于文档的优化： 维护丰富配置文档的团队能够立即获得投资回报——LLM 将这些文本知识转化为可执行的采样指导。
可与现有优化器即插即用： 剪枝模块可以添加到任何优化器（如贝叶斯优化、遗传算法），在不重写核心算法的情况下提升其效果。
低开销采用： 由于 LLM 推理成本较低（在标准 GPU 上每次提示仅需几百毫秒），整体运行时间仍主要由实际系统评估决定，使该方法在本地环境中也具备实用性。

限制与未来工作

LLM 知识新鲜度： 该方法依赖于 LLM 理解当前文档的能力；过时或写得不好的文档可能误导采样器。
对超高维空间的可扩展性： 虽然剪枝有帮助，但该方法已在约 150 个选项的配置空间上进行测试；极大的空间仍可能需要混合策略。
模型规模与成本的权衡： 更大的 LLM（例如 GPT‑4）可能提升语义解析，但会增加推理成本；探索轻量化微调模型是一个开放方向。
跨领域的泛化能力： 本研究聚焦于系统软件；将 LLM4Perf 应用于其他领域（如嵌入式固件、网络栈调优）需要进一步研究。

作者建议将反馈回路扩展为包含在线性能遥测，并探索 多 LLM 集成 以减轻单模型偏差。

作者

Xin Wang
Zhenhao Li
Zishuo Ding

论文信息

arXiv ID: 2512.16070v1
分类: cs.SE
发表时间: 2025年12月18日
PDF: Download PDF

【论文】LLM4Perf：大语言模型是多目标性能建模的有效采样器 (Copy)

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 实用方案系统性监控基于 SBOM 的漏洞扫描器中的不一致性

[Paper] SGCR：基于规范的可信 LLM 代码审查框架

[Paper] 我的交易为何有风险？理解智能合约语义及其在 NFT 生态系统中的交互

[Paper] AI 生成的响应对软件工程调查的影响研究