[Paper] Vulcan：实例最优系统启发式通过 LLM 驱动搜索

发布: 1个月前 (2026年1月1日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.25065v1

概述

本文介绍了 Vulcan，一个利用代码生成大型语言模型（LLM）自动合成 实例最优 系统启发式的框架——针对缓存驱逐或内存分层等任务的微小、工作负载特定的策略。通过将启发式设计过程转化为可搜索的程序生成问题，作者展示了 LLM 构建的策略能够在真实硬件上超越最佳的手工调优算法。

定义最小接口 – 系统只暴露一小组函数（例如 on_access(key), evict_candidate()）和一个标量目标（例如命中率、延迟）。这使得 LLM 的代码生成任务保持简单且易于验证。
提示 LLM – 将接口的简要描述以及优化目标提供给生成代码的 LLM（例如 Codex 或 7B 参数模型）。模型返回目标语言（C/C++/Rust）中的候选策略实现。
编译与沙箱 – 将生成的代码编译并在安全沙箱中运行，沙箱模拟目标系统（缓存模拟器、内存分层仿真器）。
进化搜索 – 进化算法将每个编译后的策略视为个体。它会变异提示（例如微调措辞、添加约束）并重组成功的代码片段，迭代提升性能。
选择最佳实例最优策略 – 在固定的代数预算后，得分最高的策略被部署为针对特定工作负载/硬件配置的最终启发式算法。

关键洞察在于通过 约束问题空间（即接口），即使是相对较小的 LLM 也能可靠地产生语法正确、可运行的代码，从而使搜索能够专注于性能而非调试。

任务	基线（人工设计）	Vulcan‑合成	改进
缓存驱逐（命中率）	LRU, HyperCache, TinyLFU	自定义 LLM 策略	+69 % 命中率
内存分层（吞吐量）	Tiered‑LRU, RL‑based tiering	LLM‑生成的分层规则	+7.9 % 吞吐量

快速启发式原型 – 系统工程师现在可以让 LLM “编写针对工作负载 X 的缓存淘汰策略，以最大化命中率”，并让 Vulcan 自动迭代，从而节省数周的试错时间。
针对边缘设备的定制性能 – 具有独特内存层次结构的小型 IoT 或边缘服务器可以在没有专门研究团队的情况下获得量身定制的策略。
持续适应 – 当工作负载漂移（例如软件更新后），同一流水线可以在夜间重新运行，生成新的最优启发式，从而实现 自我优化 系统。
降低准入门槛 – 没有深厚操作系统理论的开发者仍然可以获得高质量的策略，实现性能工程的民主化。
潜在的集成点 – 内核子系统（例如页面置换）、存储引擎、CDN 缓存以及云编排层都可以将 Vulcan 接口以插件形式公开，让运营商为每个租户自动调优策略。

Search budget vs. optimality – 演化搜索无法保证找到全局最优；结果取决于代数和提示的多样性。
Model reliability – 虽然受约束的接口降低了语法错误，但偶尔仍会出现语义错误，需要运行时验证，从而增加开销。
Hardware specificity – 策略是 instance‑optimal 的；为某一 CPU/缓存配置调优的策略在其他配置上可能表现下降，需要为每个目标重新合成。
Scalability to complex policies – 需要多维状态的任务（例如多队列调度器）可能超出小型 LLM 的表达能力，因而需要更大的模型或层次化接口。
Future directions – 作者建议探索 (a) 闭环在线合成，使系统在生产环境中持续优化策略，(b) 更丰富的类型安全接口以进一步降低错误，(c) 与强化学习信号结合，以更高效地引导搜索。