【论文】LLM4Perf:大语言模型是多目标性能建模的有效采样器 (Copy)

发布: (2025年12月18日 GMT+8 09:35)
7 min read
原文: arXiv

Source: arXiv - 2512.16070v1

概述

现代软件系统提供数十甚至数百个配置旋钮,这些旋钮会显著影响延迟、吞吐量、能耗以及其他质量属性。选择正确的设置是一个经典的多目标优化问题,但传统的抽样技术往往错过配置空间中有前景的区域。论文 “LLM4Perf: Large Language Models Are Effective Samplers for Multi‑Objective Performance Modeling” 探讨了大型语言模型(LLM)是否可以充当智能抽样器,利用它们对文档和代码的理解来裁剪并引导搜索。作者构建了一个名为 LLM4Perf 的反馈驱动框架,并展示了它在多个真实世界的高度可配置系统上始终优于传统基线。

关键贡献

  • 基于 LLM 的采样框架 (LLM4Perf),结合配置文档的语义解析和迭代反馈,以优化采样策略。
  • 对四个开源、高度可配置的系统进行全面的实证评估,涵盖共计 112 个多目标场景。
  • 定量优势证据: LLM4Perf 在 68.8 % 的场景中实现最佳性能,其剪枝步骤在 91.5 % 的案例中提升了基线方法。
  • 深入分析 不同 LLM 组件(提示设计、温度、相关文档检索)和超参数如何影响采样效果。
  • 为社区发布了 开源实现 和可复现的实验脚本。

方法论

  1. 配置空间提取

    • 大语言模型(LLM)解析系统文档(README、配置文件、注释),构建每个配置选项的语义映射,包括其类型以及任何文档中记录的约束。
  2. 初始剪枝

    • 使用语义映射,LLM 排除明显不可行或影响低的设置(例如互斥标志、与性能无关的选项)。
  3. 反馈循环

    • 从配置空间中抽取一小批样本,并在目标性能指标上进行评估(如延迟、内存、能耗)。
    • 将测得的结果反馈给 LLM,LLM 更新对有前景区域的内部信念,并生成新一批样本。
  4. 迭代细化

    • 步骤 2‑3 在固定预算(例如 100 次评估)内重复。该过程在探索(尝试多样化设置)和利用(聚焦高性能区域)之间取得平衡。
  5. 基线比较

    • 作者将 LLM4Perf 与经典采样器进行比较,如随机采样、拉丁超立方采样以及进化多目标优化器(例如 NSGA‑II)。

所有实验在相同硬件上运行,性能使用标准的多目标质量指标(超体积、代际距离)进行测量。

结果与发现

系统目标LLM4Perf 胜场基线 胜场相对超体积提升
Hadoop吞吐量,能耗22 / 3210 / 32+18 %
Spark延迟,内存19 / 285 / 28+21 %
TensorFlow训练时间,准确率18 / 264 / 26+15 %
PostgreSQL查询延迟,CPU18 / 268 / 26+12 %
  • 整体胜率: 112 场情景中获胜 77 场(≈68.8 %)。
  • 剪枝影响: 当对基线采样器应用 LLM 的剪枝步骤时,其性能在 448 案例中有 410 例得到提升(≈91.5 %)。
  • 组件分析: 提示工程(包括显式约束语言)和适度的温度(0.7)能够产生最可靠的采样;过于确定(温度 = 0)或过于随机(温度 = 1.0)的设置会降低性能。
  • 样本效率: LLM4Perf 以 约 30 % 更少的评估次数 达到与 NSGA‑II 相当的超体积,凸显了其样本效率优势。

实际意义

  • 更快的配置调优: DevOps 工程师可以将 LLM4Perf 集成到 CI 流水线中,自动在部署前建议高性能的配置组合,减少手动的反复试验。
  • 降低云成本: 通过快速收敛到节能的设置,云运营商可以降低大规模数据处理框架(如 Hadoop、Spark)的计算时长费用。
  • 基于文档的优化: 维护丰富配置文档的团队能够立即获得投资回报——LLM 将这些文本知识转化为可执行的采样指导。
  • 可与现有优化器即插即用: 剪枝模块可以添加到任何优化器(如贝叶斯优化、遗传算法),在不重写核心算法的情况下提升其效果。
  • 低开销采用: 由于 LLM 推理成本较低(在标准 GPU 上每次提示仅需几百毫秒),整体运行时间仍主要由实际系统评估决定,使该方法在本地环境中也具备实用性。

限制与未来工作

  • LLM 知识新鲜度: 该方法依赖于 LLM 理解当前文档的能力;过时或写得不好的文档可能误导采样器。
  • 对超高维空间的可扩展性: 虽然剪枝有帮助,但该方法已在约 150 个选项的配置空间上进行测试;极大的空间仍可能需要混合策略。
  • 模型规模与成本的权衡: 更大的 LLM(例如 GPT‑4)可能提升语义解析,但会增加推理成本;探索轻量化微调模型是一个开放方向。
  • 跨领域的泛化能力: 本研究聚焦于系统软件;将 LLM4Perf 应用于其他领域(如嵌入式固件、网络栈调优)需要进一步研究。

作者建议将反馈回路扩展为包含 在线 性能遥测,并探索 多 LLM 集成 以减轻单模型偏差。

作者

  • Xin Wang
  • Zhenhao Li
  • Zishuo Ding

论文信息

  • arXiv ID: 2512.16070v1
  • 分类: cs.SE
  • 发表时间: 2025年12月18日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »